基本的に、Solr 内でバイナリ ドキュメントのインデックスを作成する方法は 2 つあります。どちらも Tika を使用します。
- クライアント側で Tika を使用してバイナリ ファイルから情報を抽出し、抽出したテキストを Solr 内で手動でインデックス化する
- Solr サーバーにバイナリ ファイルをアップロードできるExtractingRequestHandlerを使用して、Solr が作業を実行できるようにします。このように、クライアント側では tika は必要ありません。
どちらの場合も、クライアント側にバイナリ ドキュメントが必要です。クロール中に、nutch はバイナリ ファイルをダウンロードし、Tika を使用してそれらからテキスト コンテンツを生成し、通常のテキスト ドキュメントと同様に Solr でデータをインデックス化できるはずです。Nutch は既にTikaを使用しています。インデックスを作成するドキュメントの種類を構成するだけで、次の行からインデックスを作成するファイル拡張子を削除して regex-urlfilter.txt の nutch 構成ファイルを変更するだけでよいと思います。
# skip some suffixes
-\.(swf|SWF|doc|DOC|mp3|MP3|WMV|wmv|txt|TXT|rtf|RTF|avi|AVI|m3u|M3U|flv|FLV|WAV|wav|mp4|MP4|avi|AVI|rss|RSS|xml|XML|pdf|PDF|js|JS|gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe|jpeg|JPEG|bmp|BMP)$
このようにして、私が言及した最初のオプションを使用します。次に、nutch-site.xml 内で nutch の Tika プラグインを有効にする必要があります。nutch メーリング リストのこのディスカッションを参照してください。
これは理論的には機能するはずですが、機能しない場合はお知らせください。