1

シンハラ語の音声認識システムを作成しようとしています。私は言語モデルを作成しようとしましたが、Build NEW Acoustic model, Dictionary , Language model for uncommon language speechrecognition の回答に従いました。Windows でオンラインの lmtool と cmuclmtk-0.7-win32 の両方を使用しました。入力ファイルは次のとおりです。

එක  eka
දෙක de ka
තුන thu na
හතර ha tha ra
පහ  pa ha
හය  ha iya
හත  ha tha
අට  ah ta
නවය na wa ya

lmtool と cmuclmtk に送信した後、次のような出力が得られました。

AHTA    AE T AH
DEKA    D AH K AA
EKA EH K AH
HAIYA   HH EY AY AH
HATHA   HH AE TH AH
HATHARA HH AE TH AH R AH
NAWAYA  N AO EY AH
PAHA    P AE HH AH
THUNA   TH UW N AH
අට  
තුන   
දෙක   
නවය   
පහ  
හත  
හතර   
හය  
එක   

.dic ファイルと .lm ファイルの両方に上記の文字が含まれています。これらはゴミのキャラクターだと思います。これを得るために私は何を間違えましたか?

4

1 に答える 1

1

あなたはすべて間違ったことをしました。

コーパスの構築には、辞書ファイルではなく、テキスト ファイルが必要です。辞書は別途作成します。

お使いの言語でオンライン lmtool を使用しないでください。英語のみで機能します。

テキストから言語モデルをトレーニングするには、srilm を使用する必要があります。

于 2015-06-30T11:49:29.510 に答える