現在、いくつかの DoubleClick 広告ログを Hadoop にインポートしようとしています。
これらのログは、1252 ページ (Windows-ANSI?) を使用してエンコードされ、区切り文字としてアイスランドのとげ文字を使用する gzip 区切りファイルに保存されます。
これらのログを 1 つの列にインポートすることはできますが、Hive に Thorn の文字を理解させる方法が見つからないようです。おそらく、1252 エンコーディングを理解していないためでしょうか?
Create Table のドキュメント ( http://hive.apache.org/docs/r0.9.0/language_manual/data-manipulation-statements.html ) を見てきましたが、このエンコーディングを取得する方法が見つからないようです。デリミタが機能しています。
https://karmasphere.com/karmasphere-analyst-faqから、これらのファイルのエンコーディングが ISO-8859-1 であるという提案も見ましたが、Hive または HDFS でその情報を使用する方法がわかりません。
インポート後にマップ ジョブを実行して、これらの行を複数のレコードに分割できることはわかっています。
しかし、この区切り文字を直接使用する簡単な方法はありますか?
ありがとう
スチュアート