0

そのため、HUE Web インターフェイスを介して Hive を使用して、ログ ファイルを Hadoop クラスターにインポートしようとしています。ログファイルの形式は次のとおりです。

"/log/apache/apache91" "10.93.123.135" "8081" "12.93.145.7" "12.93.123.7" "/index.html" ""  "114" "111211" "21111" "200" "200" "[14/Mar/2013:23:00:15 -0400]" "-" "-" "-" "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET4.0C; .NET4.0E)" "-" "-" "-" "-" 

ということで、 HUEで引用符を区切り文字としてテーブルの自動作成を使ってみました。しかし、これにより、2列ごとにnull列が得られます。区切り文字が原因でこれが発生する理由を理解しています。ヌル列なしでデータをインポートする方法はありますか、またはヌル列を削除できますか、または既存のテーブルから新しいテーブルを作成して必要なデータのみを抽出できますか?

インポートするデータがたくさんあります。誰かが私にとってより良い解決策を持っているなら、私はそれを受け入れるでしょう.

4

1 に答える 1

0

Hive は区切り文字として 1 文字しかサポートしていないため、実際には単一のフィールド区切り文字または TSV/CSV 形式が必要になります。

おそらく、ロガーのセパレーターを構成でき (スペースの代わりに TAB またはコンマに切り替える)、前処理ステップは必要ありません。

于 2013-08-08T15:48:52.410 に答える