次の問題を解決するためにどの手法/アルゴリズムを調査する必要があるかについてのガイダンスを探しています。現在、音響フィンガープリンティングを使用して、似たようなサウンドの mp3 をクラスター化するアルゴリズムを取得しています。各クラスターには、各ファイルのすべての異なるメタデータ (曲/アーティスト/アルバム) があります。そのクラスタについて、データベース内の既存の行に一致する「最適な」曲/アーティスト/アルバム メタデータを選択するか、最適な一致がない場合は、新しい行を挿入することを決定します。
クラスターの場合、通常、いくつかの正しいメタデータがありますが、個々のファイルにはさまざまな種類の問題があります。
- アーティスト/曲の名前が完全に間違っているか、わずかにスペルが間違っている
- アーティスト/曲/アルバムはありませんが、残りの情報はあります
- この曲は実際にはライブ録音ですが、クラスター内の一部のファイルのみがそのようにラベル付けされています。
- メタデータがほとんどない場合があり、場合によってはファイル名だけで、アーティスト - song.mp3、またはアーティスト - アルバム - song.mp3、または別のバリエーションの可能性があります。
単純な投票アルゴリズムはかなりうまく機能しますが、現在持っているものよりも多くのニュアンスを拾う可能性のある大量のデータセットでトレーニングできるものが欲しいです. 論文または同様のプロジェクトへのリンクは大歓迎です。
ありがとう!