私の主な問題は次のとおりです。一連の参照音声ファイル(音声フレーズから抽出された特徴のリスト)とクエリ音声入力が与えられた場合、最もよく一致する参照を見つける必要があります。重要なのは、それらすべてを検索するのではなく、可能な限り削除することです。誰かが私にこの問題に取り組む効率的なアルゴリズムまたはそのようなことを処理するオープンソースコードを教えてもらえますか?ありがとうございました
2 に答える
一般的に使用される効率的なアプローチの1つは、参照音声ファイルのインデックスを有限状態トランスデューサとして構築することです。Cyril Allauzen、Mehryar Mohri、およびMurat Saraclarによる論文「加重オートマトンの一般的な索引付け:発話検索への適用」(HLT-NAACL2004) http://acl-arc.comp.nus.edu.sg/archives/を参照してください。 acl-arc-090501d4 / data / pdf / anthology-PDF / W / W04 / W04-2907.pdf
参照ファイルで話されているテキストは、クエリファイルのテキストと同じであると想定しています。これを行うための一般的な方法は、各参照ファイルをクエリファイルと単純に比較することです。通常、動的タイムワーピングアルゴリズムを使用します。ウィキペディアの記事にはいくつかの実装へのリンクがあり、自分で実装するのはそれほど難しくありません。基本的な考え方は、2つのファイルを揃えて、クエリと最もよく一致する参照を選択することです。
ただし、すべての例を比較したくないとおっしゃっていました。その場合、私の最初の考えは、参照ファイルをクラスター化することです。オフラインでは、参照ファイルを相互に比較し、類似したファイルをグループ化できます。クエリを実行するときは、各クラスターの1つの例とのみ比較します。次に、結果に基づいて、最も近い1つまたは複数のクラスター内のすべてのファイルと比較します。
それはただ一つのアイデアです、私は他にもあると確信しています。