Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
ページのURLとして名前が付けられた、さまざまなファイルでクロールされたページの生のhtmlを取得しようとしています。Nutchを使用して、インデックス作成部分を除外して生の HTML ページを別のファイルに保存することはできますか?
それを行う直接的な方法はありません。コードを少し変更する必要があります。これとこれを参照してください。