かなりの量のデータ (数 GB) を処理しようとしてきましたが、私のパーソナル コンピューターは妥当な時間内にそれを処理することに抵抗があります。私は python のcsv.readerを使用していましたが、200,000 行を取得するだけでも非常に遅かったです。次に、このデータをsqliteデータベースに移行しました。これにより、結果が少し速く取得され、メモリをあまり使用しなくなりましたが、速度が依然として大きな問題でした。
繰り返しになりますが、このデータを処理するにはどのようなオプションが必要ですか? この種の目的に役立つと思われるAmazonのスポットインスタンスを使用することについて疑問に思っていましたが、探索する他のソリューションがあるかもしれません.
スポット インスタンスが適切なオプションであると仮定し、以前にそれらを使用したことがないことを考えると、それらから何を期待できるかを尋ねたいと思いますか? この種のものにそれらを使用した経験がある人はいますか?もしそうなら、あなたのワークフローは何ですか? 科学計算、画像処理などのワークフローを詳述したブログ投稿をいくつか見つけられると思ったのですが、何も見つからなかったので、少し説明したり、リンクを指摘したりしていただければ幸いです。
前もって感謝します。