(同様の質問が存在することは確かですが、探している答えはまだ見つかりません。)
私はHadoopとHive(SQLに精通している開発者向け)を使用して、数テラバイトのデータを毎晩バッチ処理しています。数百の大規模なCSVファイルの入力から、4つまたは5つのかなり大きなCSVファイルを出力しています。明らかに、HiveはこれらをHDFSに保存します。もともと、これらの入力ファイルは巨大なSQLデータウェアハウスから抽出されました。
Hadoopは、その機能にとって非常に価値があります。しかし、出力を処理するための業界標準は何ですか?現在、シェルスクリプトを使用して、これらをローカルフォルダーにコピーし直し、別のデータウェアハウスにアップロードしています。
この質問:( HadoopとMySQLの統合)は、Hadoopエクスポートを非標準で再インポートする方法を呼び出します。BIツールを使用してデータを探索したり、結果をASP.NETアプリに統合したりするにはどうすればよいですか?倹約?Protobuf?Hive ODBC APIドライバー?もっと良い方法があるに違いない.....
私を啓発します。