java - 小さなファイル用の複数のマッパー

翻译自：https://stackoverflow.com/questions/14367136 2013-01-16T20:22:35.180

319 次

Hive に基づく ETL アプリケーションに取り組んでいます。機能要件の 1 つは、Hive 内のデータの一部を Teradata (使用されている既存のソリューション) にエクスポートすること、およびその逆にエクスポートすることです。私の問題は輸出に関連しています。

Teradata コネクタで sqoop を使用して、HDFS ファイルをエクスポートしています。一部のファイルは、100 K のレコードがありますが、7 MB までの非常に小さいものです。そのため、sqoop はエクスポートの実行中に単一のマッパーのみを使用します (-m オプションを指定しましたが、機能しませんでした)。これは非常に遅いプロセスになります。

クラスター内の複数のマッパー間で単一ファイル (HDFS ブロックサイズより小さい) 内のデータを分割する方法はありますか?

(sqoop でマッパー間で行を分割することで import が高速になるので、これが比較のポイントになり、export を高速化する必要があります)

編集:- ソフトウェアバージョン:
Hadoop: MapR M3 - Hadoop 0.20
Sqoop: 1.4.2
Teradata Connector for Sqoop: 1.0.5

java - 小さなファイル用の複数のマッパー

0 に答える 0

Related

Reference