speech - 事前にトレーニングされたデータセットを使用した自動音声認識

Question

訓練されたプラットフォーム、つまり音声モッズを備えた自動音声認識装置が必要です。例:- 私は非常によく似た 2 つの単語を言っているので、システムは完全な単語とディラックスを聞き、それを検証して出力を与える必要があります。

どうやってするの。

検索しましたが、この点については完全に空白です。

score 0 · Accepted Answer

どの技術を使いたいですか？Dragonfly フレームワーク ( https://code.google.com/p/dragonfly ) や .net プロジェクト用の System.Speech.Recognition 名前空間など、さまざまなフレームワークが利用可能です。モバイルデバイスの場合は、Google が提供する音声認識 API を詳しく調べることができます。

score 0 · Accepted Answer

この観点から、Android 音声認識 API で微調整することはできません。これを行うには、ゼロから始める必要があるかもしれません..

Google音声認識APIを使い続けたい場合は、後処理を行う必要があります...これはNLU（自然言語理解）またはNLP（自然言語処理）と呼ばれます。

単純な概念は、STT (音声からテキスト) の結果が Google API から得られたものであり、それらを 1 つの最終出力にグループ化する必要があります。あなたの異なるアクセントやイントネーションが1つになることはありません。または、このプロセスは、ソウルの天気はどうですか?

質問に戻りますが、似たような発音の単語を区別するための微調整には、その種類の単語をそれに応じて設定するように訓練された AM (音響モデル) と LM (言語モデル) が必要です。そのため、モデルを最初からトレーニングする必要があります。または、既存のモデルを音響モデルに適応させて使用することもできます。

オープンソースの適切な出発点は、HTK または Sphinx です。購入する予算がある場合は、AT&T の watson が音声認識分野でこれまでで最高のツールです。

speech - 事前にトレーニングされたデータセットを使用した自動音声認識

3 に答える 3

Related

Reference