1

テンプレートを使用してコピーを作成しています。「S3」データ ノードでは、列データに「カンマ」が含まれているため、カスタム形式を構成しました。

私が使用しているカスタム データ形式には、次のプロパティがあります。

列区切り記号 " は PIPE ("|") で、レコード区切り記号は "\n" です

パイプラインを実行すると、データが S3 にロードされず、次のエラーが表示されます

レコードのコピー中にエラーが発生しました\n原因: java.lang.reflect.InvocationTargetException\n原因: null\n原因: レコード形式で引用符を定義する必要があります

誰もがこの問題に直面しました。

4

2 に答える 2

4

AWS データ パイプラインの「カスタム」フォーマット タイプの下に「Escape Char」オプションが表示されない

「TSV」タイプをカスタム形式タイプとして使用して、次を提供できます。

  • パイプ(|)としての「列区切り」、
  • 「レコード区切り」を改行(\n)、
  • バックスラッシュ (\) または必要なその他の文字として「エスケープ Char」。
于 2014-11-14T08:33:18.503 に答える
1

Aurora をソース データベースとして使用している場合は、SELECT INTO OUTFILE S3コマンドを使用することをお勧めします。それ以外の場合は、EMR を使用して独自のビルドを作成します (hive および sqoop プロジェクトがこれに役立ちます)。

于 2018-06-04T18:47:14.967 に答える