0

Postgres データベースに、メモリ内で分析するには大きすぎるイベントの大きなデータセットがあります。したがって、日時を一定の間隔に量子化し、結果を返す前にデータベース内でグループ化操作を実行したいと考えています。SqlSoup を使用して、適切なテーブルのレコードを反復処理し、必要な変換を行うと考えました。残念ながら、すべてのレコードへの参照を一度にメモリにロードしないような方法で反復を実行する方法がわかりません。データにアクセスし、必要に応じて各レコードを更新するために、一度に 1 つのレコード参照を取得する方法はありますか?

どんな提案でも大歓迎です!

クリス

4

1 に答える 1

1

何人かの人々と話し合った結果、Pig を使用してデータをローカルで処理および集約することがより良い答えであることは明らかです。スケールでは、Hadoop が適切なツールであるかどうかは明らかではありませんでした。これについて私が話したある人は、私が操作している約 10^7 レコードの規模で、Pig は DB 内操作より桁違いに高速になることを示唆しています。

于 2012-04-28T02:31:38.267 に答える