audio - 音声ストリームから単語 (音声) を抽出するためのライブラリ?

Question

オーディオストリームがあり、そこから単語 (音声) を抽出します。たとえば、audio.wav がある場合、001.wav、002.wav、003.wav などを取得します。ここで、各 XXX.wav は 1 つの単語です。

それを行うためのライブラリまたはプログラムを探しています。プラットフォームは関係ありませんが、オープンソースソリューションを好みます。

よろしくお願いします。

score 2 · Accepted Answer

Dragon Naturally Speakingを開発している Nuance社には、多数のソフトウェア開発キットがあります。

Audio Mining kit はあなたの要件に合っているようです:

Dragon NaturallySpeaking SDK AudioMining は、音声ファイル内の音声情報の 100% のインデックス作成を可能にする、話者に依存しない音声認識ツールキットです。このテクノロジーは、非常に正確な音声認識を使用して、オーディオファイルをタイムスタンプ情報を含む XML テキストに変換します。これを標準のテキスト検索製品と統合して、特定のオーディオコンテンツへの迅速なアクセスを可能にすることができます。

音声合成 + メタデータは、正しく理解するのが非常に難しい部分です。音声とメタデータを取得したら、単語を個々の音声ファイルとして抽出するのははるかに簡単です。

audio - 音声ストリームから単語 (音声) を抽出するためのライブラリ?

1 に答える 1

Related

Reference