1

大量のトランザクションデータから有益なデータパターンを把握しようとしています。

通常、私のデータは明確に定義された列(送信者、受信者、金額、通貨アドレスなど-約40〜50の異なる列があります)を持つレコードのセットであり、データ量は数百万(数億)のレコードになり、私の目的はこれから、特定のアイテムを最も多く購入している人、最も大量のトランザクションの受信者、費用パターン、同じ別の送信者からより多くのトランザクションを取得している人など、有益なトランザクションパターンを生成することです。

以前、リレーショナルデータベース(Oracle / MySQL)にデータをロードし、この情報を取得するために複雑なSQLを作成することを計画していましたが、概念実証中にボリュームを見ると、それほどスケーラブルではないようです。

Hadoopなどを使用した分散データ処理に関する詳細情報を取得しようとしていました。Hadoopを読み始めたばかりです。最初の理解まで、Hadoopは非構造化データ処理に適しているため、リレーショナルデータ処理にはあまり役立たない可能性があります。

私がすぐに試すことができるオープンソース技術に関する指針/提案。

4

1 に答える 1

0

Hadoopは、構造化/非構造化データ処理に使用できます。また、これは関係を維持するためのデータベースではなく、従来のRDBMSのようなインデックスです。

何百万もの行がある場合、 Hiveの有無にかかわらずHBaseまたはCassandraをバッチクエリに使用できます。Hadoopでのバッチクエリはしばらく前からあり、成熟しています。

インタラクティブなクエリには、 DrillまたはImapalaを使用できます。ドリルの開発は始まったばかりで、インキュベーターの段階にあることに注意してください。一方、ImapalaはClouderaによって発表されたばかりです。ここに、リアルタイムエンジンに関するいくつかの興味深い情報があります。

要件に適合する可能性のある他のオープンソースフレームワークは他にもたくさんありますが、ここではそのうちのいくつかだけを説明していることに注意してください。詳細な要件分析とさまざまなフレームワークの長所と短所に基づいて、適切なフレームワークを選択する必要があります。

于 2012-10-25T03:40:15.487 に答える