シンハラ語の音声認識システムを作成しようとしています。私は言語モデルを作成しようとしましたが、Build NEW Acoustic model, Dictionary , Language model for uncommon language speechrecognition の回答に従いました。Windows でオンラインの lmtool と cmuclmtk-0.7-win32 の両方を使用しました。入力ファイルは次のとおりです。
එක eka
දෙක de ka
තුන thu na
හතර ha tha ra
පහ pa ha
හය ha iya
හත ha tha
අට ah ta
නවය na wa ya
lmtool と cmuclmtk に送信した後、次のような出力が得られました。
AHTA AE T AH
DEKA D AH K AA
EKA EH K AH
HAIYA HH EY AY AH
HATHA HH AE TH AH
HATHARA HH AE TH AH R AH
NAWAYA N AO EY AH
PAHA P AE HH AH
THUNA TH UW N AH
අට
à¶à·”න
දෙක
නවය
පහ
à·„à¶
à·„à¶à¶»
හය
එක
.dic ファイルと .lm ファイルの両方に上記の文字が含まれています。これらはゴミのキャラクターだと思います。これを得るために私は何を間違えましたか?