問題は、C# 言語で音声音声の音素を取得したいということです。「こんにちは、シャミムさん」という「x.wav」のような音声ファイルがあるとします。音声のすべての音素とそれらの相対的なタイミングを抽出したいと考えています。下の写真のようなもの:
System.Speech
ライブラリ (recognition
と名前空間の両方)を使用しましsynthesis
たが、必要なものが見つかりませんでした。今、誤解しないでください!「こんにちはシャミム」という文の音素は必要ありません。話す未知の音声入力と英語の文から音素を抽出したいのです。試してみSystem.Speech.Recognition
ましたが、音素ではなく、音声ファイルから単語を抽出しようとします! ご想像のとおり、言葉は 30% 間違っています。;)