Amazon の一覧にあるパブリック データ セット (http://aws.amazon.com/datasets) をロードすると、多くのリソースと帯域幅が必要になります。すぐに作業を開始できるように、それらを AWS にインポートする最良の方法は何ですか?
2 に答える
パブリック データセットのスナップショット ID を使用して、新しい EBS インスタンスを作成する必要があります。そうすれば、振込手数料はかかりません。
ただし、注意してください。一部のデータ セットは 1 つのリージョンでのみ利用可能であり、ほとんどの場合、これと同様のメモで示されます。次に、EC2 インスタンスを同じリージョンに登録する必要があります。
これらのデータセットは us-east-1 リージョンでホストされています。他の地域からこれらを処理する場合、データ転送料金が請求されます。
参考までに: SDBExplorer はマルチスレッドの BatchPutAttributes を使用して、大量のデータを Amazon SimpleDB にアップロードする際に高い書き込みスループットを実現します。SDB Explorer では、複数の並列アップロードが可能です。帯域幅がある場合は、多数の BatchPutAttributes プロセスを並列キューで一度に実行することで、その帯域幅を最大限に活用できます。これにより、処理にかかる時間が短縮されます。SDBExplorer は、MySql および CSV から Amazon SimpleDB へのデータのインポートをサポートしています。
開示 : 私は SDBExplorer の開発者です。