solr - ティカのインストール

Question

このリンクで提供されている指示に従って、TikaをSolrと統合しました

間違っている場合は訂正してください。自分のシステムにあるドキュメントファイル (pdf、doc、audio) にインデックスを付けることができるようです (これらのファイルが保存されているディレクトリのパスを指定すると) が、それらのファイルにインデックスを付けることができません。ナットを使用していくつかのサイトをクロールすると、インターネット上にあります。

Tika を使用して Web 上にあるドキュメントファイル (pdf、audio、doc、zip) のインデックスを作成できますか?

score 3 · Accepted Answer

基本的に、Solr 内でバイナリドキュメントのインデックスを作成する方法は 2 つあります。どちらも Tika を使用します。

クライアント側で Tika を使用してバイナリファイルから情報を抽出し、抽出したテキストを Solr 内で手動でインデックス化する
Solr サーバーにバイナリファイルをアップロードできるExtractingRequestHandlerを使用して、Solr が作業を実行できるようにします。このように、クライアント側では tika は必要ありません。

どちらの場合も、クライアント側にバイナリドキュメントが必要です。クロール中に、nutch はバイナリファイルをダウンロードし、Tika を使用してそれらからテキストコンテンツを生成し、通常のテキストドキュメントと同様に Solr でデータをインデックス化できるはずです。Nutch は既にTikaを使用しています。インデックスを作成するドキュメントの種類を構成するだけで、次の行からインデックスを作成するファイル拡張子を削除して regex-urlfilter.txt の nutch 構成ファイルを変更するだけでよいと思います。

# skip some suffixes
-\.(swf|SWF|doc|DOC|mp3|MP3|WMV|wmv|txt|TXT|rtf|RTF|avi|AVI|m3u|M3U|flv|FLV|WAV|wav|mp4|MP4|avi|AVI|rss|RSS|xml|XML|pdf|PDF|js|JS|gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe|jpeg|JPEG|bmp|BMP)$

このようにして、私が言及した最初のオプションを使用します。次に、nutch-site.xml 内で nutch の Tika プラグインを有効にする必要があります。nutch メーリングリストのこのディスカッションを参照してください。

これは理論的には機能するはずですが、機能しない場合はお知らせください。

solr - ティカのインストール

1 に答える 1

Related

Reference