私のクローラーはすべてのWebサイトをクロールし、それらからメタデータ情報を取得しています。次に、スクリプトを実行してURLをサニタイズし、AmazonRDSに保存します。
私の問題は、サニタイズの目的でデータを保存するためにどのデータストアを使用する必要があるかです(不要なURLを削除します)。クローラーがAmazonRDSにヒットして、速度が低下することは望ましくありません。
Amazon SimpleDBを使用する必要がありますか?次に、SimpleDBから読み取り、URLをサニタイズして、AmazonRDSに移動できます。