0

Hive に基づく ETL アプリケーションに取り組んでいます。機能要件の 1 つは、Hive 内のデータの一部を Teradata (使用されている既存のソリューション) にエクスポートすること、およびその逆にエクスポートすることです。私の問題は輸出に関連しています。

Teradata コネクタで sqoop を使用して、HDFS ファイルをエクスポートしています。一部のファイルは、100 K のレコードがありますが、7 MB までの非常に小さいものです。そのため、sqoop はエクスポートの実行中に単一のマッパーのみを使用します (-m オプションを指定しましたが、機能しませんでした)。これは非常に遅いプロセスになります。

クラスター内の複数のマッパー間で単一ファイル (HDFS ブロック サイズより小さい) 内のデータを分割する方法はありますか?

(sqoop でマッパー間で行を分割することで import が高速になるので、これが比較のポイントになり、export を高速化する必要があります)

編集:- ソフトウェア バージョン:
Hadoop: MapR M3 - Hadoop 0.20
Sqoop: 1.4.2
Teradata Connector for Sqoop: 1.0.5

4

0 に答える 0