0

Heritrix 3.2.x を使用して、Web サイトをクロールしました。作成した warc ファイルから HTML コンテンツを読みたいと思います。誰でも助けることができますか?Python warc ツールと Java ベースの warc-tools.jar を使用してみました。

4

2 に答える 2

0

JWATを使用してリーダーのプログラミングを試みたことがありますか、またはJWAT ツールのコマンド ラインを使用しましたか。

jwattools.cmd extract path.to.warc(.gz)
于 2017-01-05T21:29:11.570 に答える