私はarachnode.netクローラーを使用してWebサイトをクロールしました。結果のクロールデータは、+100GBのサイズのデータベースになりました!!!
arachnode.netデータベースを調べたところ、「webpages」というテーブルが原因であることがわかりました。ダウンロードしないWebサイト、画像、メディアなどをクロールするときは、htmlコードのみをダウンロードします。ただし、この場合、htmlWebページに非表示のviewdataとjavascriptが大量に含まれていることがわかります。
したがって、もう一度クロールを実行する必要があります。今回は、Webページテーブルに保存する前に、非表示のviewdataとjavascriptコードを削除します。
誰もがそれを達成する方法についていくつかのアイデアを持っています。
ありがとう。