オーディオ ストリームがあり、そこから単語 (音声) を抽出します。たとえば、audio.wav がある場合、001.wav、002.wav、003.wav などを取得します。ここで、各 XXX.wav は 1 つの単語です。
それを行うためのライブラリまたはプログラムを探しています。プラットフォームは関係ありませんが、オープンソース ソリューションを好みます。
よろしくお願いします。
Dragon Naturally Speakingを開発しているNuance社には、多数のソフトウェア開発キットがあります。
Audio Mining kit はあなたの要件に合っているようです:
Dragon NaturallySpeaking SDK AudioMining は、音声ファイル内の音声情報の 100% のインデックス作成を可能にする、話者に依存しない音声認識ツールキットです。このテクノロジーは、非常に正確な音声認識を使用して、オーディオ ファイルをタイムスタンプ情報を含む XML テキストに変換します。これを標準のテキスト検索製品と統合して、特定のオーディオ コンテンツへの迅速なアクセスを可能にすることができます。
音声合成 + メタデータは、正しく理解するのが非常に難しい部分です。音声とメタデータを取得したら、単語を個々の音声ファイルとして抽出するのははるかに簡単です。