問題タブ [impala]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
database - impalaパーティションテーブルにデータをロードする
次のディレクトリ構造の HDFS にデータがあります。
各サブディレクトリには複数のパーツ ファイルがあります。
このデータセットを impala テーブルにロードしたいので、次のクエリを使用してテーブルを作成します。
CREATE EXTERNAL TABLE search(time_stamp TIMESTAMP, ..... url STRING,domain STRING) PARTITIONED BY (year INT, month INT, day INT. hour INT) '\t' で終了する行形式の区切られたフィールド。
それで
しかし、次のエラーでロードできませんでした:
これを行う正しい方法がわからない。
誰でもこれを手伝うことができますか?
ありがとう
database - 「列の変換エラー: 0 TO TIMESTAMP」を修正するには?
次のディレクトリ構造を持つ HDFS に保存されたテキスト ファイルにデータがあります。
したがって、次のクエリを使用して impala に外部テーブルを作成しました。
そして、データを次のようにロードしました:
利用可能なすべての曜日と時間。正常にロードされました。行数を数えることでこれを確認しました。
しかし、試してみると、select * from search limit 10;
「列の変換中にエラーが発生しました: 0 TO TIMESTAMP (データは: 1406965816)」というエラーが表示されました。
time_stamp の元の値は Unix タイムスタンプ形式です。UNIXタイムスタンプからImpala TIMESTAMPデータ型に変換するにはどうすればよいですか?
cloudera - 週ごとにグループ化する方法 Cloudera impala
Impalaクエリ結果を週ごとにグループ化する方法は? データは次のようになります。
期待される結果は次のとおりです。
ありがとうございました。
csv - カスタム SerDe は Impala でサポートされていません。二重引用符を使用して CSV でファイルをクエリする最良の方法は何ですか?
各フィールドが二重引用符で囲まれた CSV データがあります。Hive テーブルを作成したときに serde 'com.bizo.hive.serde.csv.CSVSerde' を使用しました上記のテーブルを Impala でクエリすると、SerDe not found というエラーが発生します。
/usr/lib/impala/lib フォルダーに CSV Serde JAR ファイルを追加しました。
後で Impala のドキュメントで調べたところ、Impala はカスタム SERDE をサポートしていません。このような場合、引用符付きの CSV データが処理されるように、この問題をどのように克服できますか。CSV Serde を使用したいのは、正当なフィールド vavlue である値にコンマが含まれているためです。
どうもありがとう
hadoop - Impala の起動に関する問題
ネイティブの Hadoop インストールに Impala をインストールして起動しようとしています。以下は、を使用したエラー ログimpalad
です。Impala サーバーは、セカンダリ ネーム ノード (nn02.tcs.com) にあります。
次の方法で同じ HDFS にアクセスできます。
Name Node のブラウザから Name Node (nn01.tcs.com) のサイトにアクセスできます。
http://nn01.tcs.com:8020 - 以下のメッセージが表示されます
Hadoop IPC ポートに対して HTTP リクエストを行っているようです。これは、このデーモンの Web インターフェイスの正しいポートではありません。
このエラーの解決にご協力ください
database - Tableau のタイムスタンプのデータ型をすばやく読み取るには?
バックエンド データストア (Vertica の例) から Tableau に大きなデータセットをクエリしたいと考えています。タイムスタンプは TIMESTAMP です。Tableau ダッシュボードのタイムスタンプ フィールドにフィルターを作成するため、クエリの実行時間が制限されます。
現在、タイムスタンプ フィールドのデータ型は TIMESTAMP であり、Tableau がその時間をクエリすると、クエリの実行が遅くなる CAST が使用されます。
この問題を回避する最善の方法を知っている人はいますか?
ありがとう
sql - "order by" に関する Hive、Impala、HBASE、および SQL の比較
ハイブ、インパラ、HBASE はまったくの初心者です。全文検索アプリケーションを実行しています。Oracle プラットフォームの SQL で order by を使用して関連性をソートするという面倒なステップがありました。Hadoopエコシステムでそれを変更すると役立つかどうか疑問に思います。誰かがこれを手伝ってくれることを願っています。前もって感謝します。
hadoop - Parquet ファイルに挿入すると、512 MB のファイルが生成されます。1 GB のファイルを生成するには?
Parquet ファイル形式をテストし、Impala 外部テーブルを使用してデータを Parquet ファイルに挿入しています。
以下は、Parquet ファイルのサイズに影響を与える可能性のあるパラメーター セットです。
次の挿入ステートメントを使用して、Parquet ファイルに書き込みます。
約 1 GB のファイル サイズを生成し、それに応じてパーティション分割されたデータを生成して、各パーティションに 1 GB 未満のデータが Parquet 形式で含まれるようにします。ただし、この挿入操作では、512 MB を超える単一のファイルは生成されません。512 MB のデータを 1 つのファイルに書き込み、別のファイルを作成し、残りのデータを別のファイルに書き込みます。すべてのデータを単一のファイルに書き込むにはどうすればよいですか?