ユーザーがドキュメント、ビデオ、画像、音楽をアップロードして、それらを検索できるようにするWebアプリケーションを構築したいと考えています。Dropbox +SemanticSearchと考えてください。
ユーザーがDocument1.docxなどの新しいファイルをアップロードするときに、ファイルの内容に基づいてタグを自動的に生成するにはどうすればよいですか?つまり、ファイルの内容を判別するためにユーザー入力は必要ありません。Document1.docxがデータマイニングに関する研究論文であるとすると、ユーザーがデータマイニング、研究論文、またはdocument1を検索すると、データマイニングと研究論文は自動である可能性が高いため、そのファイルが検索結果に返されます。-その特定のドキュメントに対して生成されたタグ。
1.この問題に対してどのアルゴリズムをお勧めしますか?
2.これを行うことができる自然言語ライブラリはありますか?
3.タグ付けの精度を向上させるために、どの機械学習手法を検討する必要がありますか?
4.これをビデオと画像の自動タグ付けに拡張するにはどうすればよいですか?
前もって感謝します!