6

オーディオ ストリームがあり、そこから単語 (音声) を抽出します。たとえば、audio.wav がある場合、001.wav、002.wav、003.wav などを取得します。ここで、各 XXX.wav は 1 つの単語です。

それを行うためのライブラリまたはプログラムを探しています。プラットフォームは関係ありませんが、オープンソース ソリューションを好みます。

よろしくお願いします。

4

1 に答える 1

2

Dragon Naturally Speakingを開発しているNuance社には、多数のソフトウェア開発キットがあります。

Audio Mining kit はあなたの要件に合っているようです:

Dragon NaturallySpeaking SDK AudioMining は、音声ファイル内の音声情報の 100% のインデックス作成を可能にする、話者に依存しない音声認識ツールキットです。このテクノロジーは、非常に正確な音声認識を使用して、オーディオ ファイルをタイムスタンプ情報を含む XML テキストに変換します。これを標準のテキスト検索製品と統合して、特定のオーディオ コンテンツへの迅速なアクセスを可能にすることができます。

音声合成 + メタデータは、正しく理解するのが非常に難しい部分です。音声とメタデータを取得したら、単語を個々の音声ファイルとして抽出するのははるかに簡単です。

于 2010-07-06T12:08:40.993 に答える