hadoop - Hadoopの基本：出力をどうすればよいですか？

Question

（同様の質問が存在することは確かですが、探している答えはまだ見つかりません。）

私はHadoopとHive（SQLに精通している開発者向け）を使用して、数テラバイトのデータを毎晩バッチ処理しています。数百の大規模なCSVファイルの入力から、4つまたは5つのかなり大きなCSVファイルを出力しています。明らかに、HiveはこれらをHDFSに保存します。もともと、これらの入力ファイルは巨大なSQLデータウェアハウスから抽出されました。

Hadoopは、その機能にとって非常に価値があります。しかし、出力を処理するための業界標準は何ですか？現在、シェルスクリプトを使用して、これらをローカルフォルダーにコピーし直し、別のデータウェアハウスにアップロードしています。

この質問:( HadoopとMySQLの統合）は、Hadoopエクスポートを非標準で再インポートする方法を呼び出します。BIツールを使用してデータを探索したり、結果をASP.NETアプリに統合したりするにはどうすればよいですか？倹約？Protobuf？Hive ODBC APIドライバー？もっと良い方法があるに違いない.....

私を啓発します。

score 3 · Accepted Answer

foursquare では、Hive の Thrift ドライバーを使用して、必要に応じてデータをデータベース/スプレッドシートに配置しています。

私は、Hive ドライバーを介してジョブを実行し、必要な場所に出力を移動するジョブサーバーを維持しています。thrift を直接使用するのは非常に簡単で、任意のプログラミング言語を使用できます。

Hadoop を直接扱っている (そしてこれを使用できない) 場合は、Cloudera によって構築された Sqoopをチェックしてください。

Sqoop はデータをバッチで移動するように設計されています (一方、Flume はリアルタイムで移動するように設計されており、データを取り出すよりも hdfs に入れる方が適しているようです)。

それが役立つことを願っています。

hadoop - Hadoopの基本：出力をどうすればよいですか？

1 に答える 1

Related

Reference