4

クロールされたコンテンツをテキストファイルでナッチで取得したい。#readseg コマンドを使用しましたが、出力がうまくいきません。

クロールしてURLとコンテンツをテキストファイルに保存するためのナットを取得できるプラグインはありますか。

4

2 に答える 2

2

ナット 1 を使用すると、次のようなことができます。

./bin/nutch readseg -get out-crawl/segments/20160823085007/  "https://en.wikipedia.org/wiki/Canon" -nofetch -nogenerate -noparse -noparsedata -noparsetext > Canon.html

ファイルの先頭に削除するための数行が残っています。

于 2016-09-01T13:41:24.203 に答える