solr - Solr で特定のファイルタイプのみをインデックス化するように Nutch を構成する

Question

Web をクロールするように Nutch を構成する方法を探していますが、特定の種類のファイル (具体的には XML) のみを Solr にインデックス付けします。おそらくindex-moreコードに基づいて、カスタムプラグインが仕事をするだろうと確信していますが、私は必要がない限りそれをしたくありません. Solr にすべてを吸い込み、Solr の API を使用して不要なコンテンツを削除することもできますが、これは少しハックです。Solrで特定のファイルタイプのみをインデックス化するようにNutchを構成する方法はありますか?

score 0 · Accepted Answer

拡張子に応じてファイルの種類をフィルタリングできます。regex-urlfilter.txt
で、含めたい、または除外したい拡張子を指定できます

例: 除外 (-) :-

# まだ解析できない画像やその他の接尾辞をスキップする 29 # より広範な範囲をカバーするには、urlfilter-suffix プラグインを使用します -.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|CSS|sit| SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PPT|mpg|MPG|xls|XLS|gz|GZ|rpm|RPM|tgz|TGZ|mov|MOV|exe|EXE|jpeg|JPEG| bmp|BMP|js|JS)$

+ を使用すると、包含リストを指定できます。

score 0 · Accepted Answer

要するに、URL のフィルターを定義できます。ファイル拡張子の名前によるフィルタリングはどうですか?

solr - Solr で特定のファイルタイプのみをインデックス化するように Nutch を構成する

2 に答える 2

Related

Reference