建築に関するアドバイスが少し必要です。私はJavaベースのWebアプリケーションを持っており、JPAベースのORMがmysqlリレーショナルデータベースにバックアップされています。現在、アプリケーションの一部として、何千ものデータベースレコードを相互に比較するバッチジョブがあります。この作業には時間がかかりすぎており、並列化する必要があります。これを行うためにmapreduceとhadoopを使用することを検討しています。ただし、これを現在のアーキテクチャに統合する方法についてはよくわかりません。最も簡単な最初の解決策は、mysqlからhadoopジョブにデータをプッシュする方法を見つけることだと思います。私はこれについていくつかの初期調査を行い、次の関連情報と可能性を見つけました。
1)https://issues.apache.org/jira/browse/HADOOP-2536これにより、組み込みのJDBCサポートの興味深い概要がわかります。2)この記事http://architects.dzone.com/articles/tools-moving-sql -データベースは、データをmysqlからhadoopに移動するためのサードパーティツールについて説明しています。
正直なところ、私はhbaseとhadoopについて学び始めたばかりですが、これをWebアプリに統合する方法が本当にわかりません。
アドバイスをいただければ幸いです。乾杯、ブライアン