mysql - 私のjava/mysqlwebappからマップリデュースジョブを開始します

Question

建築に関するアドバイスが少し必要です。私はJavaベースのWebアプリケーションを持っており、JPAベースのORMがmysqlリレーショナルデータベースにバックアップされています。現在、アプリケーションの一部として、何千ものデータベースレコードを相互に比較するバッチジョブがあります。この作業には時間がかかりすぎており、並列化する必要があります。これを行うためにmapreduceとhadoopを使用することを検討しています。ただし、これを現在のアーキテクチャに統合する方法についてはよくわかりません。最も簡単な最初の解決策は、mysqlからhadoopジョブにデータをプッシュする方法を見つけることだと思います。私はこれについていくつかの初期調査を行い、次の関連情報と可能性を見つけました。

1）https://issues.apache.org/jira/browse/HADOOP-2536これにより、組み込みのJDBCサポートの興味深い概要がわかります。2）この記事http://architects.dzone.com/articles/tools-moving-sql -データベースは、データをmysqlからhadoopに移動するためのサードパーティツールについて説明しています。

正直なところ、私はhbaseとhadoopについて学び始めたばかりですが、これをWebアプリに統合する方法が本当にわかりません。

アドバイスをいただければ幸いです。乾杯、ブライアン

score 0 · Accepted Answer

DataNucleus は、HBase への JPA 永続性をサポートしています。明らかに、JPA は RDBMS 用に設計されているため、完全な JPA のサポートは不可能ですが、基本的な永続化/クエリは実行できます

score 0 · Accepted Answer

ブライアン、この場合、HBase または Hive を使用するか、生の map-reduce ジョブのみを使用できます。1. HBase は列指向のデータベースです。HBase は、列ベースの計算に最適です。たとえば、従業員の平均給与 (給与が列であると仮定)。また、強力なスケーラビリティ機能により、その場でノードを追加できます。2. ハイブは、クエリのような SQL をサポートする従来のデータベースのようなものです。内部的にクエリは map-reduce 問題に変換されます。これは、行ベースの計算の場合に使用できます。3. 独自の map-reduce 機能を記述できる最後のオプション。「sqoop」を利用して、リレーショナルデータベースからHDFS(Hadoop File System)へデータを移行することができます。次に、基礎となるフラットファイルを直接処理する map-reduce 問題を記述できます。可能なオプションのいくつかに言及しました。

mysql - 私のjava/mysqlwebappからマップリデュースジョブを開始します

2 に答える 2

Related

Reference