0

リッチメディアファイル全体で全文検索を実行するための最良の方法は何ですか?ユーザーがランダムなファイル(.doc、.pdf、.jpg、...)をアップロードして、ファイルの内容やメタデータに基づいてそれらを検索できるシステムを実装しようとしています。

これを構築する方法についていくつかのアイデアをいただければ幸いです。

PS-私はLuceneとNutchを調べ始めましたが、それらは私が必要としている以上のことをしていると思います。

ありがとうございました。

4

1 に答える 1

2

メタデータと構造化テキストを検出および抽出するためのツールキットであるTika(http://lucene.apache.org/tika/ )を確認する必要があります。

于 2010-05-11T11:11:42.297 に答える