現在、さまざまなサイト イベント (インプレッション、クリック イベント、ページ セクション ビューなど) を simpledb に保存して生データのログを記録しており、このデータを処理する最善の方法を模索しています。
パンダは非常に多くの異なるクエリ方法で法案に適合しているように見えるので (詳細な調査はまだ行っていません)、simpledb からすべてのレコード (または増分レコード) を 1 日 1 回 CSV ファイルにエクスポートし、ループスルーすることを考えています。すべての csv を pandas にインポートします。
csv には約 15 列あり、おそらく数千万のレコードがあります。
これは、分析を処理するための適切なオプションでしょうか? または、誰かがより良い代替案を提案できますか?