訓練されたプラットフォーム、つまり音声モッズを備えた自動音声認識装置が必要です。例:- 私は非常によく似た 2 つの単語を言っているので、システムは完全な単語とディラックスを聞き、それを検証して出力を与える必要があります。
どうやってするの。
検索しましたが、この点については完全に空白です。
訓練されたプラットフォーム、つまり音声モッズを備えた自動音声認識装置が必要です。例:- 私は非常によく似た 2 つの単語を言っているので、システムは完全な単語とディラックスを聞き、それを検証して出力を与える必要があります。
どうやってするの。
検索しましたが、この点については完全に空白です。
どの技術を使いたいですか?Dragonfly フレームワーク ( https://code.google.com/p/dragonfly ) や .net プロジェクト用の System.Speech.Recognition 名前空間など、さまざまなフレームワークが利用可能です。モバイル デバイスの場合は、Google が提供する音声認識 API を詳しく調べることができます。
この観点から、Android 音声認識 API で微調整することはできません。これを行うには、ゼロから始める必要があるかもしれません..
Google音声認識APIを使い続けたい場合は、後処理を行う必要があります...これはNLU(自然言語理解)またはNLP(自然言語処理)と呼ばれます。
単純な概念は、STT (音声からテキスト) の結果が Google API から得られたものであり、それらを 1 つの最終出力にグループ化する必要があります。あなたの異なるアクセントやイントネーションが1つになることはありません。または、このプロセスは、ソウルの天気はどうですか?
質問に戻りますが、似たような発音の単語を区別するための微調整には、その種類の単語をそれに応じて設定するように訓練された AM (音響モデル) と LM (言語モデル) が必要です。そのため、モデルを最初からトレーニングする必要があります。または、既存のモデルを音響モデルに適応させて使用することもできます。
オープンソースの適切な出発点は、HTK または Sphinx です。購入する予算がある場合は、AT&T の watson が音声認識分野でこれまでで最高のツールです。