2

現在、いくつかの DoubleClick 広告ログを Hadoop にインポートしようとしています。

これらのログは、1252 ページ (Windows-ANSI?) を使用してエンコードされ、区切り文字としてアイスランドのとげ文字を使用する gzip 区切りファイルに保存されます。

これらのログを 1 つの列にインポートすることはできますが、Hive に Thorn の文字を理解させる方法が見つからないようです。おそらく、1252 エンコーディングを理解していないためでしょうか?

Create Table のドキュメント ( http://hive.apache.org/docs/r0.9.0/language_manual/data-manipulation-statements.html ) を見てきましたが、このエンコーディングを取得する方法が見つからないようです。デリミタが機能しています。

https://karmasphere.com/karmasphere-analyst-faqから、これらのファイルのエンコーディングが ISO-8859-1 であるという提案も見ましたが、Hive または HDFS でその情報を使用する方法がわかりません。

インポート後にマップ ジョブを実行して、これらの行を複数のレコードに分割できることはわかっています。

しかし、この区切り文字を直接使用する簡単な方法はありますか?

ありがとう

スチュアート

4

1 に答える 1

2

'\-2' を使用 char は符号付きバイトです。

どうやらハイブ開発者はそれが問題だとは思わない: https://issues.apache.org/jira/browse/HIVE-237

于 2013-01-02T14:05:26.023 に答える