database - arachnode.netのウェブページテーブルは巨大です

Question

私はarachnode.netクローラーを使用してWebサイトをクロールしました。結果のクロールデータは、+100GBのサイズのデータベースになりました!!!

arachnode.netデータベースを調べたところ、「webpages」というテーブルが原因であることがわかりました。ダウンロードしないWebサイト、画像、メディアなどをクロールするときは、htmlコードのみをダウンロードします。ただし、この場合、htmlWebページに非表示のviewdataとjavascriptが大量に含まれていることがわかります。

したがって、もう一度クロールを実行する必要があります。今回は、Webページテーブルに保存する前に、非表示のviewdataとjavascriptコードを削除します。

誰もがそれを達成する方法についていくつかのアイデアを持っています。

ありがとう。

score 1 · Accepted Answer

はい、データがデータベースに挿入される前に、CrawlRequest.DataとCrawlRequest.DecodedHtmlを変更するプラグインを作成できます。

次に示すように、PostRequest CrawlActionを作成します：http ：//arachnode.net/Content/CreatingPlugins.aspx

database - arachnode.netのウェブページテーブルは巨大です

1 に答える 1

Related

Reference