21

テキストの検索、画像の検索、さらには動画の検索にも、さまざまな検索手法がいくつ存在するのか、常に疑問に思っていました。

ただし、オーディオ ファイル内のコンテンツを検索するソリューションに出会ったことはありません。

例:約 200 のポッドキャストが mp3、wav、および ogg ファイルの形式で PC にダウンロードされているとします。それらはすべて一般的に podcast1.mp3、podcast2.mp3 などの名前が付けられています。そのため、実際に聞いてみないと内容を知ることはできません。つまり、どのポッドキャストが「ゲーム プログラミング」について話しているかを知りたいと思っています。結果を次のように表示したい:

  • Podcast1.mp3 - 時間インデックスの 3 つの結果 - 0:16:21、0:43:45、1:12:31
  • Podcast21.ogg - 時間インデックスで 1 件の結果 - 0:12:01

だから私の質問:

  • この問題にどのようにアプローチできますか?
  • このようなことを行うために開発された適切なアルゴリズムはありますか?

私の頭に浮かんだアイデアの 1 つは、「音声テキスト変換」ソフトウェアを使用して、各オーディオ ファイルの時間インデックスと共にトランスクリプトを取得し、トランスクリプトを解析して出力を取得できるというものでした。

私はこれを私の趣味のプロジェクトの 1 つと考えていました。ありがとう!

4

1 に答える 1

9

オーディオ ストリーム内のテキスト (つまり、発言内容) を検索する場合は、ある種の音声認識アルゴリズムを使用してテキストを処理し、テキストをファイルに関連付けられたメタ データとして保存する必要があります。ビデオの場合、ビデオ内のテキストに対してテキスト認識を行うこともできます。Evernoteは既に画像ファイル内のテキストに対してこれを行っていますが、私が知る限り音声はサポートしていません。

audio を使用して音声を検索する場合も、同様のことが可能です。これらのアルゴリズムの詳細はわかりませんが、ある種の周波数分析が含まれていると推測しています。Shazamはこの種の技術を使用して、オーディオ クリップに基づいて曲を識別します。

役に立つかもしれないいくつかのウィキペディアの記事を次に示します。

于 2008-08-22T22:04:11.793 に答える