Web をクロールするように Nutch を構成する方法を探していますが、特定の種類のファイル (具体的には XML) のみを Solr にインデックス付けします。おそらくindex-moreコードに基づいて、カスタムプラグインが仕事をするだろうと確信していますが、私は必要がない限りそれをしたくありません. Solr にすべてを吸い込み、Solr の API を使用して不要なコンテンツを削除することもできますが、これは少しハックです。Solrで特定のファイルタイプのみをインデックス化するようにNutchを構成する方法はありますか?
質問する
630 次
2 に答える
0
拡張子に応じてファイルの種類をフィルタリングできます。regex-urlfilter.txt
で、含めたい、または除外したい拡張子を指定できます
例: 除外 (-) :-
# まだ解析できない画像やその他の接尾辞をスキップする 29 # より広範な範囲をカバーするには、urlfilter-suffix プラグインを使用します -.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|CSS|sit| SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PPT|mpg|MPG|xls|XLS|gz|GZ|rpm|RPM|tgz|TGZ|mov|MOV|exe|EXE|jpeg|JPEG| bmp|BMP|js|JS)$
+ を使用すると、包含リストを指定できます。
于 2012-11-30T17:32:56.987 に答える
0
要するに、URL のフィルターを定義できます。ファイル拡張子の名前によるフィルタリングはどうですか?
于 2012-11-30T15:02:18.693 に答える