algorithm - 教師なし自動タグ付けアルゴリズム？

Question

ユーザーがドキュメント、ビデオ、画像、音楽をアップロードして、それらを検索できるようにするWebアプリケーションを構築したいと考えています。Dropbox +SemanticSearchと考えてください。

ユーザーがDocument1.docxなどの新しいファイルをアップロードするときに、ファイルの内容に基づいてタグを自動的に生成するにはどうすればよいですか？つまり、ファイルの内容を判別するためにユーザー入力は必要ありません。Document1.docxがデータマイニングに関する研究論文であるとすると、ユーザーがデータマイニング、研究論文、またはdocument1を検索すると、データマイニングと研究論文は自動である可能性が高いため、そのファイルが検索結果に返されます。-その特定のドキュメントに対して生成されたタグ。

1.この問題に対してどのアルゴリズムをお勧めしますか？

2.これを行うことができる自然言語ライブラリはありますか？

3.タグ付けの精度を向上させるために、どの機械学習手法を検討する必要がありますか？

4.これをビデオと画像の自動タグ付けに拡張するにはどうすればよいですか？

前もって感謝します！

score 21 · Accepted Answer

このタイプのタスクの最も一般的な教師なし機械学習モデルは、Latent Dirichlet Allocation (LDA) です。このモデルは、ドキュメントの単語に基づいて、ドキュメントのコーパスからトピックのコレクションを自動的に推測します。一連のドキュメントに対して LDA を実行すると、特定のトピックを検索するときに単語が特定のトピックに確率的に割り当てられ、その単語に関連する可能性が最も高いドキュメントを取得できます。

画像や音楽にも拡張機能がいくつかあります。 http://cseweb.ucsd.edu/~dhu/docs/research_exam09.pdfを参照してください。

LDA には、いくつかの言語でいくつかの効率的な実装があります。

元の研究者による多くの実装
http://mallet.cs.umass.edu/、Java で書かれ、SO で他の人が推奨
PLDA : 高速で並列化された C++ 実装

score 1 · Accepted Answer

このキーフレーズ抽出アルゴリズム/パッケージを使用して、テキストドキュメントにタグを付けることができます。 http://www.nzdl.org/Kea/ 現在、サポートされているドキュメントの種類は限られていますが (農業と医療に関するものだと思います)、必要に応じてトレーニングすることができます。

非常に正確なオブジェクト検出を行っていない限り（独自の欠点があります）、画像/ビデオ部分がどのように機能するかわかりません。どのように行う予定ですか？

score 0 · Accepted Answer

今日、あなたの質問に答えるブログ記事を投稿しました。

http://scottge.net/2015/06/30/automatic-image-and-video-tagging/

画像や動画からキーワードを自動抽出するには、基本的に2つのアプローチがあります。

複数インスタンス学習 (MIL)
ディープニューラルネットワーク (DNN)、リカレントニューラルネットワーク (RNN)、およびそのバリアント

上記のブログ記事では、ソリューションを説明するために最新の研究論文を挙げています。それらのいくつかには、デモサイトやソースコードも含まれています。

ありがとう、スコット

algorithm - 教師なし自動タグ付けアルゴリズム？

5 に答える 5

Related

Reference