NaviRO homepage

Resurse lingvistice

Dicţionar de transcriere fonetică cu 2k+ cuvinte:

Dicţionar de transcriere fonetică pentru limba română, construită manual pe baza unor transcrieri efectuate de experţi lingvişti. Dicţionarul conţine 2383 de cuvinte şi poate fi descărcat în format text UTF-8.

Daţi click aici pentru descărcare.

Transcrierile au fost culese din:

• Institutul de Lingvistica „Iorgu Iordan - Alexandru Rosetti” al Academiei Române , “DOOM - Dictionarul Ortografic, Ortoepic si Morfologic al Limbii Române (Editia a II-a, revizuita si adaugita)”, Editura Univers Enciclopedic, Bucuresti, 2005.

• Beldescu G., Ortografia actuală a limbii române, Editura Ştiinţifică şi Enciclopedică, 1984.

• Tatar A.L., “Dictionarul de Pronuntare a Limbii Române”, editia a 2-a, Editura Clusium, Cluj-Napoca, 1999.

Dicţionar de transcriere fonetică cu 100k+ cuvinte:

Dicţionar de transcriere fonetică pentru limba română construită automat folosind o aplicaţie bazată pe un sistem format din 30 de reţele neuronale artificiale. Sistemul automat de transcriere fonetică este prezentat în Automated grapheem-to-phoneme conversion system for Romanian. Dicţionarul conţine peste 138500 de cuvinte din dicţionarul DexOnline. Regulile iniţiale au fost extrase pe baza dicţionarului construit manual şi transcrierile au fost adăugate folosind aplicaţia Dictionary Maker. Dicţionarul poate fi descărcat în format txt UTF-8.

Descărcări:

Dicţionar în format txt

Dictionarul a fost testat cu aplicaţia Phonetisaurus

S-a construit un model din 80% din cuvintele din dicţionar şi s-a utilizat 10% pentru configurare şi 10% pentru evaluare.

../phonetisaurus-g2p --model=../script/naviro100K+/naviro80.fst --input=../script/naviro100K+/naviro80.words

--beam=1500 --alpha=0.6500 --prec=0.8500 --

ratio=0.7200 --order=6 --words --isfile > ../script/naviro100K+/naviro80.hyp

Words: 13850 Hyps: 13850 Refs: 13850

######################################################################
EVALUATION RESULTS
----------------------------------------------------------------------
(T)otal tokens in reference: 117737
(M)atches: 117485 (S)ubstitutions: 157 (I)nsertions: 131 (D)eletions: 95
% Correct (M/T) -- %99.79
% Token ER ((S+I+D)/T) -- %0.33
% Accuracy 1.0-ER -- %99.67
--------------------------------------------------------
(S)equences: 13850 (C)orrect sequences: 13507 (E)rror sequences: 343
% Sequence ER (E/S) -- %2.48
% Sequence Acc (1.0-E/S) -- %97.52
######################################################################

Alte resurse:

Lista de grafeme

Lista de foneme

Secvenţele audio pentru fonemele utilizate necesare pentru a genera pronunţia cuvintelor

Finantare:

Denumire proiect de cercetare postdoctorală:

Sistem de navigare vocală prin Internet pentru limba româna

Cercetător postdoctoral:dr.ing. DOMOKOS József

Locul de desfasurare: Universitatea Tehnică din Cluj-Napoca

Perioada de derulare a proiectului: iulie 2010 - aprilie 2013

Acest proiect a beneficiat de suport financiar prin proiectul “Dezvoltarea si sustinerea de programe postdoctorale multidisciplinare în domenii tehnice prioritare ale strategiei nationale de cercetare - dezvoltare - inovare” 4D-POSTDOC, contract nr. POSDRU/89/1.5/S/52603, proiect cofinantat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013.