0

私はarachnode.netクローラーを使用してWebサイトをクロールしました。結果のクロールデータは、+100GBのサイズのデータ​​ベースになりました!!!

arachnode.netデータベースを調べたところ、「webpages」というテーブルが原因であることがわかりました。ダウンロードしないWebサイト、画像、メディアなどをクロールするときは、htmlコードのみをダウンロードします。ただし、この場合、htmlWebページに非表示のviewdataとjavascriptが大量に含まれていることがわかります。

したがって、もう一度クロールを実行する必要があります。今回は、Webページテーブルに保存する前に、非表示のviewdataとjavascriptコードを削除します。

誰もがそれを達成する方法についていくつかのアイデアを持っています。

ありがとう。

4

1 に答える 1

1

はい、データがデータベースに挿入される前に、CrawlRequest.DataとCrawlRequest.DecodedHtmlを変更するプラグインを作成できます。

次に示すように、PostRequest CrawlActionを作成します:http ://arachnode.net/Content/CreatingPlugins.aspx

于 2013-02-10T16:48:37.657 に答える