machine-learning - CBIR に適したアルゴリズムを提案できる人はいますか?

Question

プロジェクト: コンテンツベースの画像検索 - 半教師あり (トレーニング中に手動で画像にタグ付けします)

説明

データベースには 1000000 枚の画像があります。トレーニングは手動 (監視あり) です。タイトルとタグは各画像に提供されます。例：coke.jpg タイトル：Coke タグ：Coke, Can

画像とタグを使用して、システムをトレーニングする必要があります。トレーニング後、新しい画像 (既にデータベースにある/完全に新しい) を与えると、システムは画像が属する可能性のあるタグを出力し、各タグに属するいくつかの画像を表示する必要があります。一致が見つからないというメッセージが表示される場合もあります。

質問:

1) 画像指紋とは何を意味しますか? 予想される画像の指紋サイズは? (データベースには何百万もの画像が挿入されるため、重要です)

2) データベース内のその指紋のフィールド形式は何ですか? (高速検索が必要なため重要です...スクリプトは 100 万の画像データベースを 1 秒未満で検索する必要があります)

3) それらを分析するために使用する記述子 (アルゴリズム) は何ですか?

前もって感謝します

score 4 · Accepted Answer

さて、このトピックは非常に大きいですが、ここに可能な解決策の簡単な概要があります

画像フィンガープリントは、SIFT記述子のコレクションです。これらは、サイズを縮小し、インデックス付けを可能にするために量子化されます。
データベースの転置インデックスを作成して、量子化された記述子で画像を検索できるようにします（これには任意の全文検索エンジン\ DBを使用できます）
画像が与えられた場合、大量の共通記述子を共有する画像を検索します
これらの潜在的な候補者については、記述子の空間配置が十分に類似していることを検証する必要があります

あなたが始めるためのいくつかの記事：

Philbin、James、他。「大きな語彙と高速な空間マッチングによるオブジェクト検索。」コンピュータビジョンとパターン認識、2007年。CVPR'07。IEEEカンファレンス。IEEE、2007年。

Philbin、James、他。「量子化の喪失：大規模な画像データベースでの特定のオブジェクト検索の改善。」コンピュータビジョンとパターン認識、2008年。CVPR2008年。IEEE会議。IEEE、2008年。

Mikulík、Andrej、他。「素晴らしい語彙を学ぶ。」コンピュータビジョン–ECCV 2010（2010）：1-14。

score 2 · Accepted Answer

トレーニング画像から抽出された画像特徴のリストでSVMモデルをトレーニングすることをお勧めします

score 1 · Accepted Answer

画像のフィンガープリント: 画像の意味のある表現。もちろん、単一のピクセルを使用することはできません。これを行う最も合理的な方法は、基底間の相関を最小限に抑えることです。簡単に言えば、64x64 の画像を撮影した場合、おそらく左上隅の 2 つのピクセルが同じか似ているでしょう。64^2 ピクセルごとに入力として使用するのは無意味です。もっと良いものが必要です。主成分分析が何をするのかを見てみましょう。
それは完全にあなた次第です。それを極端にすると、画像が暗いかどうかを示すビットを使用できます。より良いのは、画像に対して PCA を実行し、さまざまな数の機能を試すことです (機能が多いほど良いとは限りません)。
必要なものは何でも、使用できるアルゴリズムはたくさんあります。サポートベクターマシンをお勧めします。使いやすく、サポートも充実。さまざまなタグが多数ある場合は、タグごとに 1 つの SVM をトレイに配置する必要があります。それは理想的ではないかもしれません。

machine-learning - CBIR に適したアルゴリズムを提案できる人はいますか?

3 に答える 3

Related

Reference