辞書が必要なOpenearsを使用しました。辞書に載っている単語に言及するときに便利です。私たちが話すすべての言葉を変換したかったのです。そこでNuanceの音声認識dragaon SDKを使いました。ただし、Webサーバーと通信します。セキュリティ上の理由から、サーバーとの通信を避けたいと考えています。オフライン モードでのみサーバーと通信せずに、Windows Mobile で話すすべての単語の音声をテキストに変換することは可能ですか?
3 に答える
無制限のボキャブラリを使用した音声認識には、非常に大きな計算リソースとメモリ リソース (ギガバイトのメモリ) が必要なため、他の組み込みデバイスの iPhone でそれを行うのは非常に困難です。iPhone はデスクトップよりも 9 倍遅いです。iPad はより強力な CPU を搭載しているため、より簡単です。
Google は、ディクテーションのためにエンジンをオフラインで動作させるために多大な努力を払ってきましたが、サーバーにデータを送信する方がはるかに正確であるため、データを送信することを好みます。
そのため、小型デバイスで実行されるほとんどのソリューションでは、使用する語彙が限られています。この語彙は十分に大きくなる可能性があるため、それに気付かないでしょう. 通常、ほとんどの実用的な状況をカバーするには、500 ~ 1000 語で十分です。OpenEars を使用して、このような語彙を認識することができます。
言語モデルをトレーニングするには、ドメインのテキスト (単語と表現) が必要です。言語モデルのトレーニングについては、CMUSphinx チュートリアルで説明されています。言語モデルを使用するには、次の OpenEars API 呼び出しを使用できます。
- (void) changeLanguageModelToFile: (NSString *) languageModelPathAsString
withDictionary: (NSString *) dictionaryPathAsString
詳細については、 API リファレンスを参照してください。
このような語彙と対応する言語モデルで OpenEars を使用して、デバイスの自由形式のテキスト入力をサポートできます。
それは可能ですが、無制限のボキャブラリー音声からテキストへのコンバーターを探している場合は、サーバー上で計算を行うのが最適です。このようなシステムの要件は、おそらくスマートフォンなどのシステムには大きすぎるでしょう。膨大な要件がある主な領域は次のとおりです。
- 入力音声をテキストにマッピングするための辞書。
- 実行する音声認識アルゴリズムの計算。
これが、Google のような企業が電話ではなくサーバー上で音声認識サービスを実行している理由だと思います。
ただし、アプリケーションが単語の音声からテキストへの限定的なものである場合は、試してみる価値があるかもしれません。
ではごきげんよう!
Pocketsphinxはネットワーク接続がなくてもiPhoneで動作しませんか?VocalKitのように浮かんでいるデモアプリはありませんか
http://www.rajeevan.co.uk/pocketsphinx_in_iphone/が役立つ場合があります。