次のように、分散 (デプロイ) モードで Nutch クロールを行った後:
bin/nutch crawl s3n://..... -depth 10 -topN 50000 -dir /crawl -threads 20
フェッチされた各 URL をそのコンテンツと共にマップ削減に適した形式で抽出する必要があります。以下の readeg コマンドを使用すると、コンテンツが取得されますが、出力形式がマップ縮小に適していません。
bin/nutch readseg -dump /crawl/segments/* /output -nogenerate -noparse -noparsedata -noparsetext
理想的には、出力は次の形式にする必要があります。
http://abc.com/1 content of http://abc.com/1
http://abc.com/2 content of http://abc.com/2
これを達成する方法について何か提案はありますか?