3

私のクローラーはすべてのWebサイトをクロールし、それらからメタデータ情報を取得しています。次に、スクリプトを実行してURLをサニタイズし、AmazonRDSに保存します。

私の問題は、サニタイズの目的でデータを保存するためにどのデータストアを使用する必要があるかです(不要なURLを削除します)。クローラーがAmazonRDSにヒットして、速度が低下することは望ましくありません。

Amazon SimpleDBを使用する必要がありますか?次に、SimpleDBから読み取り、URLをサニタイズして、AmazonRDSに移動できます。

4

1 に答える 1

1

いつでもデータベースを使用できますが、問題はディスク アクセスにあります。一連の URL を読み取るためにディスク アクセスを行うたびに、それらをサニタイズし、別のディスク アクセスである別のデータベースに再度書き込みます。パフォーマンスを気にしなければ、このプロセスは問題ありません。

1 つの解決策は、リストのような単純なデータ構造を使用したり、束を保存したり、URL にスレッドを設定したりして、リストがしきい値に達すると URL をクリーンアップし、これらの URL を Amazon RDS に書き込むことができることです。

于 2011-07-12T18:25:56.213 に答える