音声をテキストに変換するソフトウェアは必要ありません。必要なものは次のとおりです。
- 複数 (たとえば 50 以上) のオーディオ ストリーム (ラジオ局の録音) を録音します。
- その録音から、興味深いオーディオ クリップをマークします - その長さは 2 秒から 60 秒の範囲です - そのようなオーディオ クリップは数千あります
- ライブラリは、録音されたサウンド ストリームから同じオーディオ クリップの他のインスタンスを見つけることができる必要があります。
- 信頼係数は使用済みに報告し、追加の入力を提供して、次回の認識がより適切に実行されるようにする必要があります
そのようなソフトウェアライブラリを知っていますか? 私にとっては LGPL が最も価値がありますが、商用ライセンスを取得することもできます。
オーディオ クリップには、音楽、テキスト、エフェクト、またはそれらの任意の組み合わせが含まれます。したがって、TEXT 認識は問題外です。
アーキテクチャ: C++、グルー用の C#、可能であれば CUDA。