2

Web をクロールするように Nutch を構成する方法を探していますが、特定の種類のファイル (具体的には XML) のみを Solr にインデックス付けします。おそらくindex-moreコードに基づいて、カスタムプラグインが仕事をするだろうと確信していますが、私は必要がない限りそれをしたくありません. Solr にすべてを吸い込み、Solr の API を使用して不要なコンテンツを削除することもできますが、これは少しハックです。Solrで特定のファイルタイプのみをインデックス化するようにNutchを構成する方法はありますか?

4

2 に答える 2

0

拡張子に応じてファイルの種類をフィルタリングできます。regex-urlfilter.txt
で、含めたい、または除外したい拡張子を指定できます

例: 除外 (-) :-

# まだ解析できない画像やその他の接尾辞をスキップする 29 # より広範な範囲をカバーするには、urlfilter-suffix プラグインを使用します -.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|CSS|sit| SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PPT|mpg|MPG|xls|XLS|gz|GZ|rpm|RPM|tgz|TGZ|mov|MOV|exe|EXE|jpeg|JPEG| bmp|BMP|js|JS)$

+ を使用すると、包含リストを指定できます。

于 2012-11-30T17:32:56.987 に答える
0

要するに、URL のフィルターを定義できます。ファイル拡張子の名前によるフィルタリングはどうですか?

于 2012-11-30T15:02:18.693 に答える