7

そこで、他の多くの人と同じように、私は独自の音声認識エンジンを作成することにしました。結局のところ、それはまったく簡単なことではなく、特に英語の場合、達成するのはむしろ困難です。なぜなら、単語の書き方と発音の仕方には劇的な違いがあるからです。グルジア出身なので、グルジア語の音声認識を書くことにしました。グルジア語では、単語を書いたとおりに正確に発音します。まるで転写紙のようです。この事実は私の仕事を大幅に軽減しますか? または、さらに難しい問題があります... :D ?

4

2 に答える 2

9

音声認識は、多くの特定のアルゴリズム、ツール、方法を備えた複雑な領域です。独自のエンジンを作成するには、CMUSphinx オープン ソースの音声認識ツールキットから始めることができます。これにより、次のことが可能になります。

  • グルジア語のサポートに必要なデータの収集と処理
  • グルジア語のモデルを作成する
  • グルジア語の音声認識エンジンを実装します。
  • エンジンを使用して、デスクトップ、サーバー、または IPhone (OpenEars 経由) で実行される音声認識アプリケーションを作成します。

CMUSphinx は、英語、ドイツ語、スペイン語、フランス語、オランダ語、ロシア語、北京語、アイスランド語、イタリア語、およびその他の多くの言語を既にサポートしています。新しいものを追加するのはとても簡単です。新しい人の場合、通常、必要なプロセスを実装するために 1 ~ 2 か月の集中作業が必要です。

開始するには、ホームページにアクセスしてください。

http://cmusphinx.sourceforge.net

そしてチュートリアルを読む

http://cmusphinx.sourceforge.net/wiki/tutorial

質問がある場合は、フォーラムまたはここで質問してください。

そして、グルジア語を話すときに音を綴るだけだというのは、非常によくある誤解です。これは、世界のほとんどの言語には当てはまりません。仮説を検証するために、オーディオ エディタでオーディオを録音して、どの音が実際に発音されているかを確認してみてください。あなたは驚かれることでしょう。上記のチュートリアルでは、この質問について詳しく説明しています。

于 2011-11-21T17:34:14.930 に答える
5

ジョージア出身の人はみんな同じように聞こえますか? 私はそうは思いません...音声認識における多くの主要な問題は、言語自体に直接関係していません:

  • さまざまな人 (女性、男性、子供、年長者など) はさまざまな声を持っています。
  • 風邪を引いているときなど、同じ人でも音が違うことがあります。
  • さまざまなバックグラウンド ノイズ
  • 日常の会話には、他の言語の単語が含まれていることがあります (たとえば、米国/英語でドイツ語の Kindergarden という単語があるように)。
  • 国自体からではない何人かの人々は言語を学びました(彼らは通常異なって聞こえます)
  • 速く話す人もいれば、ゆっくり話す人もいます
  • マイクの音質
    など

これらのことを解決することは常にかなり難しいです...それに加えて、あなたは世話をする言語/発音を持っています...私はグルジア語を知りませんが、あなたが説明することでタスクが少し簡単になるかもしれませんが、それでも難しい仕事。

編集 - コメントによると:

優れたライブラリを使用すると、時間枠が短縮され、品質が向上する可能性もあります...しかし、すべてのライブラリが音声認識に適しているわけではありませんが、他のオーディオ関連の問題では優れている可能性があります...

参照については、ウィキペディアの記事http://en.wikipedia.org/wiki/Speech_recognitionを参照してください。いくつかのリンクや参考文献を含む概要が説明されており、出発点として適切です...

このような API の設計方法については、たとえばhttp://java.sun.com/products/java-media/speech/forDevelopers/jsapi-guide/Recognition.htmlを参照してください。

于 2011-11-20T15:59:48.677 に答える