amazon-web-services - クローラーからの一時データを保存するには、どのデータストアを使用する必要がありますか？

Question

私のクローラーはすべてのWebサイトをクロールし、それらからメタデータ情報を取得しています。次に、スクリプトを実行してURLをサニタイズし、AmazonRDSに保存します。

私の問題は、サニタイズの目的でデータを保存するためにどのデータストアを使用する必要があるかです（不要なURLを削除します）。クローラーがAmazonRDSにヒットして、速度が低下することは望ましくありません。

Amazon SimpleDBを使用する必要がありますか？次に、SimpleDBから読み取り、URLをサニタイズして、AmazonRDSに移動できます。

score 1 · Accepted Answer

いつでもデータベースを使用できますが、問題はディスクアクセスにあります。一連の URL を読み取るためにディスクアクセスを行うたびに、それらをサニタイズし、別のディスクアクセスである別のデータベースに再度書き込みます。パフォーマンスを気にしなければ、このプロセスは問題ありません。

1 つの解決策は、リストのような単純なデータ構造を使用したり、束を保存したり、URL にスレッドを設定したりして、リストがしきい値に達すると URL をクリーンアップし、これらの URL を Amazon RDS に書き込むことができることです。

1 に答える 1