Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
Nutch 2.1 の使用
最初のクロール中に、クロールするページ数を制限するためにいくつかの URL を除外しました。これらの拒否ルールを regex-urlfilter.txt から削除してこれらのコマンドを実行すると、フィルタリングされた URL が取得されません。
bin/nutch updatedb bin/nutch generate bin/nutch fetch -all
私は何が欠けていますか?
Nutch ユーザー グループに関するこの投稿は、それを行うのに役立つかもしれません。