問題タブ [hive-configuration]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
432 参照

hadoop - ハイブのmaxCombinedSplitSizeプロパティ?

pig という名前のプロパティがあります

' pig.maxCombinedSplitSize ' – 1 つのマップで処理されるデータのサイズをバイト単位で指定します。より小さいファイルは、このサイズに達するまで結合されます。

単一のマップで処理されるデータのサイズを指定するためのハイブに同様のプロパティはありますか?

以下のコマンドを試していますが、うまくいきません。

助言がありますか?

0 投票する
2 に答える
4217 参照

hadoop - ネストされたサブディレクトリからの入力を使用してテーブルを作成するハイブ

次のようなファイル パスに HDFS の Avro 形式のデータがあります/data/logs/[foldername]/[filename].avro。これらすべてのログ ファイル、つまりフォームのすべてのファイルに対して Hive テーブルを作成したいと考えています/data/logs/*/*。(それらはすべて同じ Avro スキーマに基づいています。)

flag を使用して以下のクエリを実行していますmapred.input.dir.recursive=true

LOCATIONネストを少なくする、つまり'hdfs://.../data/[foldername]/'特定のフォルダー名に変更しない限り、テーブルは空になります。これは、 のネストされていないパスで問題なく機能しましたLOCATION

これらすべての異なる [foldername] フォルダーからデータを取得できるようにしたいと考えています。ネストされたディレクトリで再帰的な入力選択をさらに進めるにはどうすればよいですか?

0 投票する
1 に答える
593 参照

hadoop - Hadoop 2 でユーザーがデフォルトの mapred プロパティをオーバーライドしないようにする

Hive ジョブを送信するときにユーザーが Hadoop 構成ファイルのデフォルト プロパティをオーバーライドしないようにするにはどうすればよいですか?

例:

mapred-site.xml:

ユーザーはハイブ ジョブで以下のプロパティを使用して上書きします

0 投票する
2 に答える
7955 参照

hive - hive.exec.dynamic.partition の値を表示するハイブ コマンドは何ですか

プロパティの値を設定するために set コマンドが使用されることはわかっています。

しかし、上記のプロパティの現在の値をどのように読み取るか

以下のコマンドを試しましたが、機能しません

上記のプロパティの現在の値を読み取るための正しいハイブコマンドを取得するのを誰かが手伝ってくれませんか。

0 投票する
1 に答える
5625 参照

hadoop - Hive の Fetch タスクがマップのみのタスクよりも高速に動作するのはなぜですか?

hive.fetch.task.conversionHiveパラメーターを使用して、Map または MapReduce の代わりに、単純なクエリのために Hive で Fetch タスクを有効にすることができます。

特にいくつかの単純な作業を行う場合 (たとえばselect * from table limit 10;) 、Fetch タスクが Map よりもはるかに高速に実行される理由を説明してください。この場合、追加で実行しているマップのみのタスクは何ですか? 私の場合、パフォーマンスの違いは 20 倍以上高速です。どちらのタスクもテーブル データを読み取る必要がありますね。

0 投票する
1 に答える
2113 参照

sql - HIVE select count(*) non null は select count(*) より大きい値を返します

現在、Hive でデータ探索を行っていますが、次の動作を説明できません。フィールド master_id を持つテーブル (mytable という名前) があるとします。

取得する行数を数えると

null 以外の master_id を持つ行の数をカウントしたい場合は、より高い数を取得します

さらに、master_id が null になることはないようです。

whereステートメントを追加すると、最終的に行数が増える可能性があることを説明できません。この動作を説明するヒントはありますか?

ありがとう