“impala”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

1802 参照

database - impalaパーティションテーブルにデータをロードする

次のディレクトリ構造の HDFS にデータがあります。

各サブディレクトリには複数のパーツファイルがあります。

このデータセットを impala テーブルにロードしたいので、次のクエリを使用してテーブルを作成します。

CREATE EXTERNAL TABLE search(time_stamp TIMESTAMP, ..... url STRING,domain STRING) PARTITIONED BY (year INT, month INT, day INT. hour INT) '\t' で終了する行形式の区切られたフィールド。

それで

しかし、次のエラーでロードできませんでした:

これを行う正しい方法がわからない。

誰でもこれを手伝うことができますか？

ありがとう

2014-08-21T20:10:17.167

0 投票する

1 に答える

3204 参照

database - 「列の変換エラー: 0 TO TIMESTAMP」を修正するには?

次のディレクトリ構造を持つ HDFS に保存されたテキストファイルにデータがあります。

したがって、次のクエリを使用して impala に外部テーブルを作成しました。

そして、データを次のようにロードしました：

利用可能なすべての曜日と時間。正常にロードされました。行数を数えることでこれを確認しました。

しかし、試してみると、select * from search limit 10;「列の変換中にエラーが発生しました: 0 TO TIMESTAMP (データは: 1406965816)」というエラーが表示されました。

time_stamp の元の値は Unix タイムスタンプ形式です。UNIXタイムスタンプからImpala TIMESTAMPデータ型に変換するにはどうすればよいですか?

database hadoop hive impala

2014-08-25T15:55:35.007

0 投票する

2 に答える

6923 参照

cloudera - 週ごとにグループ化する方法 Cloudera impala

Impalaクエリ結果を週ごとにグループ化する方法は? データは次のようになります。

期待される結果は次のとおりです。

ありがとうございました。

cloudera impala

2014-09-01T03:51:00.660

0 投票する

3 に答える

7226 参照

csv - カスタム SerDe は Impala でサポートされていません。二重引用符を使用して CSV でファイルをクエリする最良の方法は何ですか?

各フィールドが二重引用符で囲まれた CSV データがあります。Hive テーブルを作成したときに serde 'com.bizo.hive.serde.csv.CSVSerde' を使用しました上記のテーブルを Impala でクエリすると、SerDe not found というエラーが発生します。

/usr/lib/impala/lib フォルダーに CSV Serde JAR ファイルを追加しました。

後で Impala のドキュメントで調べたところ、Impala はカスタム SERDE をサポートしていません。このような場合、引用符付きの CSV データが処理されるように、この問題をどのように克服できますか。CSV Serde を使用したいのは、正当なフィールド vavlue である値にコンマが含まれているためです。

どうもありがとう

csv hadoop double-quotes impala

2014-09-03T10:56:37.513

0 投票する

1 に答える

1528 参照

hadoop - Impala の起動に関する問題

ネイティブの Hadoop インストールに Impala をインストールして起動しようとしています。以下は、を使用したエラーログimpaladです。Impala サーバーは、セカンダリネームノード (nn02.tcs.com) にあります。

次の方法で同じ HDFS にアクセスできます。

Name Node のブラウザから Name Node (nn01.tcs.com) のサイトにアクセスできます。

http://nn01.tcs.com:8020 - 以下のメッセージが表示されます

Hadoop IPC ポートに対して HTTP リクエストを行っているようです。これは、このデーモンの Web インターフェイスの正しいポートではありません。

このエラーの解決にご協力ください

hadoop hive impala

2014-09-04T04:02:40.933

0 投票する

0 に答える

358 参照

database - Tableau のタイムスタンプのデータ型をすばやく読み取るには?

バックエンドデータストア (Vertica の例) から Tableau に大きなデータセットをクエリしたいと考えています。タイムスタンプは TIMESTAMP です。Tableau ダッシュボードのタイムスタンプフィールドにフィルターを作成するため、クエリの実行時間が制限されます。

現在、タイムスタンプフィールドのデータ型は TIMESTAMP であり、Tableau がその時間をクエリすると、クエリの実行が遅くなる CAST が使用されます。

この問題を回避する最善の方法を知っている人はいますか?

ありがとう

database visualization tableau-api vertica impala

2014-09-08T20:44:32.470

0 投票する

1 に答える

240 参照

sql - "order by" に関する Hive、Impala、HBASE、および SQL の比較

ハイブ、インパラ、HBASE はまったくの初心者です。全文検索アプリケーションを実行しています。Oracle プラットフォームの SQL で order by を使用して関連性をソートするという面倒なステップがありました。Hadoopエコシステムでそれを変更すると役立つかどうか疑問に思います。誰かがこれを手伝ってくれることを願っています。前もって感謝します。

sql hadoop hive hbase impala

2014-09-10T16:23:10.257

0 投票する

1 に答える

967 参照

hadoop - Parquet ファイルに挿入すると、512 MB のファイルが生成されます。1 GB のファイルを生成するには?

Parquet ファイル形式をテストし、Impala 外部テーブルを使用してデータを Parquet ファイルに挿入しています。

以下は、Parquet ファイルのサイズに影響を与える可能性のあるパラメーターセットです。

次の挿入ステートメントを使用して、Parquet ファイルに書き込みます。

約 1 GB のファイルサイズを生成し、それに応じてパーティション分割されたデータを生成して、各パーティションに 1 GB 未満のデータが Parquet 形式で含まれるようにします。ただし、この挿入操作では、512 MB を超える単一のファイルは生成されません。512 MB のデータを 1 つのファイルに書き込み、別のファイルを作成し、残りのデータを別のファイルに書き込みます。すべてのデータを単一のファイルに書き込むにはどうすればよいですか?

hadoop impala parquet

2014-09-17T18:50:51.217

問題タブ [impala]

Reference