2

(同様の質問が存在することは確かですが、探している答えはまだ見つかりません。)

私はHadoopHive(SQLに精通している開発者向け)を使用して、数テラバイトのデータを毎晩バッチ処理しています。数百の大規模なCSVファイルの入力から、4つまたは5つのかなり大きなCSVファイルを出力しています。明らかに、HiveはこれらをHDFSに保存します。もともと、これらの入力ファイルは巨大なSQLデータウェアハウスから抽出されました。

Hadoopは、その機能にとって非常に価値があります。しかし、出力を処理するための業界標準は何ですか?現在、シェルスクリプトを使用して、これらをローカルフォルダーにコピーし直し、別のデータウェアハウスにアップロードしています。

この質問:( HadoopとMySQLの統合)は、Hadoopエクスポートを非標準で再インポートする方法を呼び出します。BIツールを使用してデータを探索したり、結果をASP.NETアプリに統合したりするにはどうすればよいですか?倹約?Protobuf?Hive ODBC APIドライバー?もっと良い方法があるに違いない.....

私を啓発します。

4

1 に答える 1

3

foursquare では、Hive の Thrift ドライバーを使用して、必要に応じてデータをデータベース/スプレッドシートに配置しています。

私は、Hive ドライバーを介してジョブを実行し、必要な場所に出力を移動するジョブ サーバーを維持しています。thrift を直接使用するのは非常に簡単で、任意のプログラミング言語を使用できます。

Hadoop を直接扱っている (そしてこれを使用できない) 場合は、Cloudera によって構築された Sqoopをチェックしてください。

Sqoop はデータをバッチで移動するように設計されています (一方、Flume はリアルタイムで移動するように設計されており、データを取り出すよりも hdfs に入れる方が適しているようです)。

それが役立つことを願っています。

于 2011-06-07T20:43:22.700 に答える