0

建築に関するアドバイスが少し必要です。私はJavaベースのWebアプリケーションを持っており、JPAベースのORMがmysqlリレーショナルデータベースにバックアップされています。現在、アプリケーションの一部として、何千ものデータベースレコードを相互に比較するバッチジョブがあります。この作業には時間がかかりすぎており、並列化する必要があります。これを行うためにmapreduceとhadoopを使用することを検討しています。ただし、これを現在のアーキテクチャに統合する方法についてはよくわかりません。最も簡単な最初の解決策は、mysqlからhadoopジョブにデータをプッシュする方法を見つけることだと思います。私はこれについていくつかの初期調査を行い、次の関連情報と可能性を見つけました。

1)https://issues.apache.org/jira/browse/HADOOP-2536これにより、組み込みのJDBCサポートの興味深い概要がわかります。2)この記事http://architects.dzone.com/articles/tools-moving-sql -データベースは、データをmysqlからhadoopに移動するためのサードパーティツールについて説明しています

正直なところ、私はhbaseとhadoopについて学び始めたばかりですが、これをWebアプリに統合する方法が本当にわかりません。

アドバイスをいただければ幸いです。乾杯、ブライアン

4

2 に答える 2

0

DataNucleus は、HBase への JPA 永続性をサポートしています。明らかに、JPA は RDBMS 用に設計されているため、完全な JPA のサポートは不可能ですが、基本的な永続化/クエリは実行できます

于 2011-01-09T05:42:32.627 に答える
0

ブライアン、この場合、HBase または Hive を使用するか、生の map-reduce ジョブのみを使用できます。1. HBase は列指向のデータベースです。HBase は、列ベースの計算に最適です。たとえば、従業員の平均給与 (給与が列であると仮定)。また、強力なスケーラビリティ機能により、その場でノードを追加できます。2. ハイブは、クエリのような SQL をサポートする従来のデータベースのようなものです。内部的にクエリは map-reduce 問題に変換されます。これは、行ベースの計算の場合に使用できます。3. 独自の map-reduce 機能を記述できる最後のオプション。「sqoop」を利用して、リレーショナルデータベースからHDFS(Hadoop File System)へデータを移行することができます。次に、基礎となるフラット ファイルを直接処理する map-reduce 問題を記述できます。可能なオプションのいくつかに言及しました。

于 2011-01-11T17:55:10.783 に答える