nutch - クロールされたページのコンテンツと対応する URL を簡単に取得するには?

Question

クロールされたコンテンツをテキストファイルでナッチで取得したい。#readseg コマンドを使用しましたが、出力がうまくいきません。

クロールしてURLとコンテンツをテキストファイルに保存するためのナットを取得できるプラグインはありますか。

score 2 · Accepted Answer

ナット 1 を使用すると、次のようなことができます。

./bin/nutch readseg -get out-crawl/segments/20160823085007/  "https://en.wikipedia.org/wiki/Canon" -nofetch -nogenerate -noparse -noparsedata -noparsetext > Canon.html

ファイルの先頭に削除するための数行が残っています。

nutch - クロールされたページのコンテンツと対応する URL を簡単に取得するには?

2 に答える 2

Related

Reference