nutch - Nutch 生の HTML 保存

Question

ページのURLとして名前が付けられた、さまざまなファイルでクロールされたページの生のhtmlを取得しようとしています。Nutchを使用して、インデックス作成部分を除外して生の HTML ページを別のファイルに保存することはできますか?

score 2 · Accepted Answer

それを行う直接的な方法はありません。コードを少し変更する必要があります。これとこれを参照してください。

1 に答える 1