24

ユーザーがドキュメントビデオ画像音楽をアップロードして、それらを検索できるようにするWebアプリケーションを構築したいと考えています。Dropbox +SemanticSearchと考えてください。

ユーザーがDocument1.docxなどの新しいファイルをアップロードするときに、ファイルの内容に基づいてタグを自動的に生成するにはどうすればよいですか?つまり、ファイルの内容を判別するためにユーザー入力は必要ありません。Document1.docxがデータマイニングに関する研究論文であるとすると、ユーザーがデータマイニング研究論文、またはdocument1を検索すると、データマイニング研究論文は自動である可能性が高いため、そのファイルが検索結果に返されます。-その特定のドキュメントに対して生成されたタグ。

1.この問題に対してどのアルゴリズムをお勧めしますか?

2.これを行うことができる自然言語ライブラリはありますか?

3.タグ付けの精度を向上させるために、どの機械学習手法を検討する必要がありますか?

4.これをビデオと画像の自動タグ付けに拡張するにはどうすればよいですか?

前もって感謝します!

4

5 に答える 5

21

このタイプのタスクの最も一般的な教師なし機械学習モデルは、Latent Dirichlet Allocation (LDA) です。このモデルは、ドキュメントの単語に基づいて、ドキュメントのコーパスからトピックのコレクションを自動的に推測します。一連のドキュメントに対して LDA を実行すると、特定のトピックを検索するときに単語が特定のトピックに確率的に割り当てられ、その単語に関連する可能性が最も高いドキュメントを取得できます。

画像や音楽にも拡張機能がいくつかあります。 http://cseweb.ucsd.edu/~dhu/docs/research_exam09.pdfを参照してください。

LDA には、いくつかの言語でいくつかの効率的な実装があります。

于 2013-03-13T04:59:41.090 に答える
1

このキーフレーズ抽出アルゴリズム/パッケージを使用して、テキスト ドキュメントにタグを付けることができます。 http://www.nzdl.org/Kea/ 現在、サポートされているドキュメントの種類は限られていますが (農業と医療に関するものだと思います)、必要に応じてトレーニングすることができます。

非常に正確なオブジェクト検出を行っていない限り(独自の欠点があります)、画像/ビデオ部分がどのように機能するかわかりません。どのように行う予定ですか?

于 2014-06-24T13:15:35.763 に答える
0

今日、あなたの質問に答えるブログ記事を投稿しました。

http://scottge.net/2015/06/30/automatic-image-and-video-tagging/

画像や動画からキーワードを自動抽出するには、基本的に2つのアプローチがあります。

  1. 複数インスタンス学習 (MIL)
  2. ディープ ニューラル ネットワーク (DNN)、リカレント ニューラル ネットワーク (RNN)、およびそのバリアント

上記のブログ記事では、ソリューションを説明するために最新の研究論文を挙げています。それらのいくつかには、デモ サイトやソース コードも含まれています。

ありがとう、スコット

于 2015-07-01T20:41:38.953 に答える