リッチメディアファイル全体で全文検索を実行するための最良の方法は何ですか?ユーザーがランダムなファイル(.doc、.pdf、.jpg、...)をアップロードして、ファイルの内容やメタデータに基づいてそれらを検索できるシステムを実装しようとしています。
これを構築する方法についていくつかのアイデアをいただければ幸いです。
PS-私はLuceneとNutchを調べ始めましたが、それらは私が必要としている以上のことをしていると思います。
ありがとうございました。
リッチメディアファイル全体で全文検索を実行するための最良の方法は何ですか?ユーザーがランダムなファイル(.doc、.pdf、.jpg、...)をアップロードして、ファイルの内容やメタデータに基づいてそれらを検索できるシステムを実装しようとしています。
これを構築する方法についていくつかのアイデアをいただければ幸いです。
PS-私はLuceneとNutchを調べ始めましたが、それらは私が必要としている以上のことをしていると思います。
ありがとうございました。
メタデータと構造化テキストを検出および抽出するためのツールキットであるTika(http://lucene.apache.org/tika/ )を確認する必要があります。