大量のトランザクションデータから有益なデータパターンを把握しようとしています。
通常、私のデータは明確に定義された列(送信者、受信者、金額、通貨アドレスなど-約40〜50の異なる列があります)を持つレコードのセットであり、データ量は数百万(数億)のレコードになり、私の目的はこれから、特定のアイテムを最も多く購入している人、最も大量のトランザクションの受信者、費用パターン、同じ別の送信者からより多くのトランザクションを取得している人など、有益なトランザクションパターンを生成することです。
以前、リレーショナルデータベース(Oracle / MySQL)にデータをロードし、この情報を取得するために複雑なSQLを作成することを計画していましたが、概念実証中にボリュームを見ると、それほどスケーラブルではないようです。
Hadoopなどを使用した分散データ処理に関する詳細情報を取得しようとしていました。Hadoopを読み始めたばかりです。最初の理解まで、Hadoopは非構造化データ処理に適しているため、リレーショナルデータ処理にはあまり役立たない可能性があります。
私がすぐに試すことができるオープンソース技術に関する指針/提案。