テキスト読み上げおよび音声認識を使用する Linux 用のプログラムを作成する予定です。これに最適なツール/ライブラリは何ですか? より優れたツールを使用するには、代わりに Windows を使用する必要がありますか? ツールは、コンソールまたは C プログラムから簡単に呼び出せる必要があります。
12 に答える
音声認識には、さまざまなスフィンクスがあります。さまざまなバリアントにはさまざまな長所と短所があります。Sphinx バージョンの比較 に比較があります。Sphinx 4 は Java ですが、その他は C だと思います。
それは、認識しようとしている音声に大きく依存します。
これは 2005 年の記事で、ディクテーション プログラムを作成する際の難しさについて説明しています: http://www.cs.cmu.edu/~archan/personal/whyNoOpenSourceDictationDraft4.html。それが必要な場合は、Julius音声認識エンジンが有望に思えますが、独自の音響モデルと言語モデルを追加する必要があります。voxforge音響モデルを使用できる場合があります。
ディクテーション プログラムを作成しようとしていない場合は、はるかに簡単な作業になります。コマンド プログラムの語彙は限られています。
私は、ポケットフィンクスと gstreamer を使用して、 TWiTポッドキャストから「 twitter」という単語のほとんどの出現箇所を自動的に編集するプログラムを作成することで、かなり良い結果を得ることができました。ポッドキャストのトランスクリプトに基づく独自の言語モデルを使用するまで、まったく機能しませんでした。音声認識エンジンからの機械による書き起こしは役に立たない/面白いですが、キーワードを見つけるのには問題ありません。
LinuxでLoquendoとFestivalの両方を使用しました。私が使用したフェスティバルの声は、非常にロボット的な合成で、かなり貧弱だと思います。一方、ロケンドの声は素晴らしく、非常に高品質です。
Debian/Ubuntu のテキスト読み上げには、SVOX Pico もあります。
sudo apt-get install libttspico-utils
http://simon-listens.org/ - simon オープンソースの音声認識プログラム
テキスト読み上げ用の HMM ベースの音声合成を確認しましたか。ウェブサイトhttp://hts.sp.nitech.ac.jp/で無料のデモを見つけることができます。インストールは少し面倒です。
そして、テキスト読み上げ用の mbrola があります。
espeakがLinux用の非常に優れたテキスト読み上げプログラムであることは知っていますが (異なるアクセントも可能です!)、UNIX 用に設計された音声認識システムについては知りません。
at&t fsm ツールキットもかなり素晴らしいですが、商用利用は許可されていませんが、
これは少し古いですが、数日前の Hackaday で音声認識に関するかなり包括的なガイドを見ました: http://hackaday.com/2010/07/09/get-started-with-speech-recognition/
最初の質問は適切なライブラリを見つけることでした、私は知っていますが、実際のディクテーションに十分な音声認識を使用する限り、Linux 用のものは何もないようです (時間の経過とともに変わると確信していますが、そうなると思います)。多くの人が興味を持っているかどうかはわかりませんので、しばらくお待ちください)。
現時点では、Dragon NaturallySpeaking を CodeWeavers がサポートする製品として宣伝しようとしています...ユーザーとして興味がある場合は、投票していただけると助かります...
http://www.codeweavers.com/compatibility/browse/name/?app_id=8427