1

Nutch を介してプレーンな HTML ページのみをクロール/フェッチすることは可能ですか (つまり、写真、ビデオ、フラッシュ、Excel、exe、pdf、またはワード ファイルは含まれません)?

ページをチェックして Nutch 経由でページContent-Typeのみを取得する方法は?text/html

4

1 に答える 1

1

編集conf/regex-urlfilter.txt

無視するファイル サフィックスを設定します。

-\.(jpg|gif|zip|ico)$ 
于 2012-10-08T07:35:49.163 に答える