Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
クロールされたコンテンツをテキストファイルでナッチで取得したい。#readseg コマンドを使用しましたが、出力がうまくいきません。
クロールしてURLとコンテンツをテキストファイルに保存するためのナットを取得できるプラグインはありますか。
ナット 1 を使用すると、次のようなことができます。
./bin/nutch readseg -get out-crawl/segments/20160823085007/ "https://en.wikipedia.org/wiki/Canon" -nofetch -nogenerate -noparse -noparsedata -noparsetext > Canon.html
ファイルの先頭に削除するための数行が残っています。