Dicţionar de transcriere fonetică pentru limba română, construită manual pe baza unor transcrieri efectuate de experţi lingvişti. Dicţionarul conţine 2383 de cuvinte şi poate fi descărcat în format text UTF-8.
Daţi click aici pentru descărcare.
Transcrierile au fost culese din:
Institutul de Lingvistica „Iorgu Iordan - Alexandru Rosetti” al Academiei Române , “DOOM - Dictionarul Ortografic, Ortoepic si Morfologic al Limbii Române (Editia a II-a, revizuita si adaugita)”, Editura Univers Enciclopedic, Bucuresti, 2005.
Beldescu G., Ortografia actuală a limbii române, Editura Ştiinţifică şi Enciclopedică, 1984.
Dicţionar de transcriere fonetică pentru limba română construită automat folosind o aplicaţie bazată pe un sistem format din 30 de reţele neuronale artificiale. Sistemul automat de transcriere fonetică este prezentat în Automated grapheem-to-phoneme conversion system for Romanian. Dicţionarul conţine peste 138500 de cuvinte din dicţionarul DexOnline. Regulile iniţiale au fost extrase pe baza dicţionarului construit manual şi transcrierile au fost adăugate folosind aplicaţia Dictionary Maker. Dicţionarul poate fi descărcat în format txt UTF-8.
Descărcări:
Dictionarul a fost testat cu aplicaţia Phonetisaurus
S-a construit un model din 80% din cuvintele din dicţionar şi s-a utilizat 10% pentru configurare şi 10% pentru evaluare.
../phonetisaurus-g2p --model=../script/naviro100K+/naviro80.fst --input=../script/naviro100K+/naviro80.words
--beam=1500 --alpha=0.6500 --prec=0.8500 --
ratio=0.7200 --order=6 --words --isfile > ../script/naviro100K+/naviro80.hyp
Words: 13850 Hyps: 13850 Refs: 13850
######################################################################
EVALUATION RESULTS
----------------------------------------------------------------------
(T)otal tokens in reference: 117737
(M)atches: 117485 (S)ubstitutions: 157 (I)nsertions: 131 (D)eletions: 95
% Correct (M/T) -- %99.79
% Token ER ((S+I+D)/T) -- %0.33
% Accuracy 1.0-ER -- %99.67
--------------------------------------------------------
(S)equences: 13850 (C)orrect sequences: 13507 (E)rror sequences: 343
% Sequence ER (E/S) -- %2.48
% Sequence Acc (1.0-E/S) -- %97.52
######################################################################
Secvenţele audio pentru fonemele utilizate necesare pentru a genera pronunţia cuvintelor
Denumire proiect de cercetare postdoctorală:
Sistem de navigare vocală prin Internet pentru limba româna
Cercetător postdoctoral:dr.ing. DOMOKOS József
Locul de desfasurare: Universitatea Tehnică din Cluj-Napoca
Perioada de derulare a proiectului: iulie 2010 - aprilie 2013
Acest proiect a beneficiat de suport financiar prin proiectul “Dezvoltarea si sustinerea de programe postdoctorale multidisciplinare în domenii tehnice prioritare ale strategiei nationale de cercetare - dezvoltare - inovare” 4D-POSTDOC, contract nr. POSDRU/89/1.5/S/52603, proiect cofinantat din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013.