1

このリンクで提供されている指示に従って、TikaをSolrと統合しました

間違っている場合は訂正してください。自分のシステムにあるドキュメント ファイル (pdf、doc、audio) にインデックスを付けることができるようです (これらのファイルが保存されているディレクトリのパスを指定すると) が、それらのファイルにインデックスを付けることができません。ナットを使用していくつかのサイトをクロールすると、インターネット上にあります。

Tika を使用して Web 上にあるドキュメント ファイル (pdf、audio、doc、zip) のインデックスを作成できますか?

4

1 に答える 1

3

基本的に、Solr 内でバイナリ ドキュメントのインデックスを作成する方法は 2 つあります。どちらも Tika を使用します。

  1. クライアント側で Tika を使用してバイナリ ファイルから情報を抽出し、抽出したテキストを Solr 内で手動でインデックス化する
  2. Solr サーバーにバイナリ ファイルをアップロードできるExtractingRequestHandlerを使用して、Solr が作業を実行できるようにします。このように、クライアント側では tika は必要ありません。

どちらの場合も、クライアント側にバイナリ ドキュメントが必要です。クロール中に、nutch はバイナリ ファイルをダウンロードし、Tika を使用してそれらからテキスト コンテンツを生成し、通常のテキスト ドキュメントと同様に Solr でデータをインデックス化できるはずです。Nutch は既にTikaを使用しています。インデックスを作成するドキュメントの種類を構成するだけで、次の行からインデックスを作成するファイル拡張子を削除して regex-urlfilter.txt の nutch 構成ファイルを変更するだけでよいと思います。

# skip some suffixes
-\.(swf|SWF|doc|DOC|mp3|MP3|WMV|wmv|txt|TXT|rtf|RTF|avi|AVI|m3u|M3U|flv|FLV|WAV|wav|mp4|MP4|avi|AVI|rss|RSS|xml|XML|pdf|PDF|js|JS|gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe|jpeg|JPEG|bmp|BMP)$

このようにして、私が言及した最初のオプションを使用します。次に、nutch-site.xml 内で nutch の Tika プラグインを有効にする必要があります。nutch メーリング リストのこのディスカッションを参照してください。

これは理論的には機能するはずですが、機能しない場合はお知らせください。

于 2012-08-01T11:22:27.493 に答える