問題タブ [impala]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1802 参照

database - impalaパーティションテーブルにデータをロードする

次のディレクトリ構造の HDFS にデータがあります。

各サブディレクトリには複数のパーツ ファイルがあります。

このデータセットを impala テーブルにロードしたいので、次のクエリを使用してテーブルを作成します。

CREATE EXTERNAL TABLE search(time_stamp TIMESTAMP, ..... url STRING,domain STRING) PARTITIONED BY (year INT, month INT, day INT. hour INT) '\t' で終了する行形式の区切られたフィールド。

それで

しかし、次のエラーでロードできませんでした:

これを行う正しい方法がわからない。

誰でもこれを手伝うことができますか?

ありがとう

0 投票する
1 に答える
3204 参照

database - 「列の変換エラー: 0 TO TIMESTAMP」を修正するには?

次のディレクトリ構造を持つ HDFS に保存されたテキスト ファイルにデータがあります。

したがって、次のクエリを使用して impala に外部テーブルを作成しました。

そして、データを次のようにロードしました:

利用可能なすべての曜日と時間。正常にロードされました。行数を数えることでこれを確認しました。

しかし、試してみると、select * from search limit 10;「列の変換中にエラーが発生しました: 0 TO TIMESTAMP (データは: 1406965816)」というエラーが表示されました。

time_stamp の元の値は Unix タイムスタンプ形式です。UNIXタイムスタンプからImpala TIMESTAMPデータ型に変換するにはどうすればよいですか?

0 投票する
2 に答える
6923 参照

cloudera - 週ごとにグループ化する方法 Cloudera impala

Impalaクエリ結果を週ごとにグループ化する方法は? データは次のようになります。

期待される結果は次のとおりです。

ありがとうございました。

0 投票する
3 に答える
7226 参照

csv - カスタム SerDe は Impala でサポートされていません。二重引用符を使用して CSV でファイルをクエリする最良の方法は何ですか?

各フィールドが二重引用符で囲まれた CSV データがあります。Hive テーブルを作成したときに serde 'com.bizo.hive.serde.csv.CSVSerde' を使用しました上記のテーブルを Impala でクエリすると、SerDe not found というエラーが発生します。

/usr/lib/impala/lib フォルダーに CSV Serde JAR ファイルを追加しました。

後で Impala のドキュメントで調べたところ、Impala はカスタム SERDE をサポートしていません。このような場合、引用符付きの CSV データが処理されるように、この問題をどのように克服できますか。CSV Serde を使用したいのは、正当なフィールド vavlue である値にコンマが含まれているためです。

どうもありがとう

0 投票する
1 に答える
1528 参照

hadoop - Impala の起動に関する問題

ネイティブの Hadoop インストールに Impala をインストールして起動しようとしています。以下は、を使用したエラー ログimpaladです。Impala サーバーは、セカンダリ ネーム ノード (nn02.tcs.com) にあります。

次の方法で同じ HDFS にアクセスできます。

Name Node のブラウザから Name Node (nn01.tcs.com) のサイトにアクセスできます。

http://nn01.tcs.com:8020 - 以下のメッセージが表示されます

Hadoop IPC ポートに対して HTTP リクエストを行っているようです。これは、このデーモンの Web インターフェイスの正しいポートではありません。

このエラーの解決にご協力ください

0 投票する
0 に答える
358 参照

database - Tableau のタイムスタンプのデータ型をすばやく読み取るには?

バックエンド データストア (Vertica の例) から Tableau に大きなデータセットをクエリしたいと考えています。タイムスタンプは TIMESTAMP です。Tableau ダッシュボードのタイムスタンプ フィールドにフィルターを作成するため、クエリの実行時間が制限されます。

現在、タイムスタンプ フィールドのデータ型は TIMESTAMP であり、Tableau がその時間をクエリすると、クエリの実行が遅くなる CAST が使用されます。

この問題を回避する最善の方法を知っている人はいますか?

ありがとう

0 投票する
1 に答える
240 参照

sql - "order by" に関する Hive、Impala、HBASE、および SQL の比較

ハイブ、インパラ、HBASE はまったくの初心者です。全文検索アプリケーションを実行しています。Oracle プラットフォームの SQL で order by を使用して関連性をソートするという面倒なステップがありました。Hadoopエコシステムでそれを変更すると役立つかどうか疑問に思います。誰かがこれを手伝ってくれることを願っています。前もって感謝します。

0 投票する
1 に答える
967 参照

hadoop - Parquet ファイルに挿入すると、512 MB のファイルが生成されます。1 GB のファイルを生成するには?

Parquet ファイル形式をテストし、Impala 外部テーブルを使用してデータを Parquet ファイルに挿入しています。

以下は、Parquet ファイルのサイズに影響を与える可能性のあるパラメーター セットです。

次の挿入ステートメントを使用して、Parquet ファイルに書き込みます。

約 1 GB のファイル サイズを生成し、それに応じてパーティション分割されたデータを生成して、各パーティションに 1 GB 未満のデータが Parquet 形式で含まれるようにします。ただし、この挿入操作では、512 MB を超える単一のファイルは生成されません。512 MB のデータを 1 つのファイルに書き込み、別のファイルを作成し、残りのデータを別のファイルに書き込みます。すべてのデータを単一のファイルに書き込むにはどうすればよいですか?