machine-learning - データ分類のための機械学習アルゴリズム。

Question

次の問題を解決するためにどの手法/アルゴリズムを調査する必要があるかについてのガイダンスを探しています。現在、音響フィンガープリンティングを使用して、似たようなサウンドの mp3 をクラスター化するアルゴリズムを取得しています。各クラスターには、各ファイルのすべての異なるメタデータ (曲/アーティスト/アルバム) があります。そのクラスタについて、データベース内の既存の行に一致する「最適な」曲/アーティスト/アルバムメタデータを選択するか、最適な一致がない場合は、新しい行を挿入することを決定します。

クラスターの場合、通常、いくつかの正しいメタデータがありますが、個々のファイルにはさまざまな種類の問題があります。

アーティスト/曲の名前が完全に間違っているか、わずかにスペルが間違っている
アーティスト/曲/アルバムはありませんが、残りの情報はあります
この曲は実際にはライブ録音ですが、クラスター内の一部のファイルのみがそのようにラベル付けされています。
メタデータがほとんどない場合があり、場合によってはファイル名だけで、アーティスト - song.mp3、またはアーティスト - アルバム - song.mp3、または別のバリエーションの可能性があります。

単純な投票アルゴリズムはかなりうまく機能しますが、現在持っているものよりも多くのニュアンスを拾う可能性のある大量のデータセットでトレーニングできるものが欲しいです. 論文または同様のプロジェクトへのリンクは大歓迎です。

ありがとう！

score 3 · Accepted Answer

私があなたの問題を正しく理解していれば、曲などをクラスターに分割するための既存の手法があり、特徴の定義に基づいてそのクラスターのコンテンツの「最良の」例を選択したいと考えています。

ベイジアン分類器を見てみましょう。これらは、データ内の特定のクラスターの主要な定義特性を推測するのに役立ちます (クラスター化が明示的で明確に定義された分類法に基づいていないと仮定すると)、メタデータまたはその他のパラメーターのノイズとエラーに対する許容度を提供します。次に、データとクラスターの性質に応じて、最尤法またはサンプリング法を使用して、特定のクラスターから 1 つ以上の最も代表的な例を特定できます。

ベイズ法は、欠落しているメタデータ値など、欠落しているデータを推測する場合にも役立ちます。サンプル分布を使用して、他のデータフィールドの既知の値に基づいて、欠損データの可能性の高い値を生成できます。

score 2 · Accepted Answer

レーベンシュタイン距離は、2 つの文字列間の「距離」を測定するためのメトリックです。文字を追加/削除/変更して、ある文字列を別の文字列に変更する操作の数をカウントします。

このアルゴリズムを使用して、スペルミスに対処できます。2 つの文字列が非常に近い場合は、スペルミスである可能性が高くなります。

http://en.wikipedia.org/wiki/Levenshtein_distance

machine-learning - データ分類のための機械学習アルゴリズム。

2 に答える 2

Related

Reference