問題タブ [hive]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
19676 参照

hadoop - Hiveで、「Load data local inpath」は既存のデータを上書きしますか、それとも追加しますか?

cronでHiveへのインポートを実行したいと思っており、

「データローカルインパス'/tmp / data/x'をテーブルXにロードする」で十分です。

後続のコマンドは、テーブルにすでにあるものを上書きしますか?またはそれは追加されますか?

0 投票する
2 に答える
412 参照

hadoop - 大規模な動的データ セットに対する分析クエリの実行

私が所有するシステムに大量の受信データ セットがあるという要件があります。

このセット内のデータの 1 つの単位には、不変の属性と状態のセットが関連付けられています。状態は動的で、いつでも変更できます。

要件は次のとおりです-

  1. 大規模なデータ セットでは、状態が変化する可能性があります。更新は高速である必要があります。
  2. さまざまな属性にピボットされたデータを集約できるはずです。
  3. 理想的には、個々のデータ ユニットを集計結果に関連付ける方法が必要です。つまり、特定の集計を生成した特定のトランザクションにドリルダウンしたいと考えています。(集約が実行された後にデータユニットの状態が変化するなど、ここでの競合状態は認識していますが、これは予想されることです)。
  4. すべての集計は時間ベースです。つまり、1 日、2 日、1 週間、1 か月などのピボット y での x の合計です。

これらのユースケースを満たすためにさまざまなテクノロジーを評価しており、あなたの提案を聞きたいと思っています。分析/集計のユース ケースに適合する Hive/Pig を調べました。ただし、いつでもシステムに大量の更新が入る可能性があることを懸念しています。インデックス付きデータベース (sql または nosql) と比較した場合、これが HDFS ファイルでどのように機能するかはわかりません。

0 投票する
8 に答える
65545 参照

syntax - SQLの「好きではない」に相当するHiveはありますか

Hive は肯定的な like クエリをサポートしていますが、例:

select * from table_name where column_name like 'root~%' ;

Hiveは否定的な like クエリをサポートしていません: ex.

select * from table_name where column_name not like 'root~%' ;

Hive がサポートする同等のソリューションを知っている人はいますか?

0 投票する
2 に答える
4179 参照

hadoop - 優れたオープンソース アナリティクス フロント エンド ツールはありますか?

HIVE/HDFS と通信してデータを取得できる、優れたオープン ソースの Web ベースのフロント エンド分析ツールはありますか?

0 投票する
7 に答える
72837 参照

syntax - ハイブ:ローカルファイルに列ヘッダーを書き込みますか?

再び不足しているハイブのドキュメント:

クエリの結果と列の名前をローカルファイルに書き込みたいのですが。

Hiveはこれをサポートしていますか?

また、別の質問:StackOverflowはHiveヘルプを取得するのに最適な場所ですか?@Nija、とても役に立ちましたが、私は彼らを悩ませ続けることはしません...

0 投票する
0 に答える
925 参照

hadoop - MapReduce 入力フォーマットとしての Apache Hive の使用および/または Hive メタデータのスクレイピング

私たちの環境は、ハイブにデータを保存することに重きを置いています。私は現在、範囲外の何かに取り組んでいることに気づきました。mapreduce を作成しましたが、Hive から簡単にスクレイピングできる情報を得るために、多くの直接的なユーザー入力が必要です。とはいえ、ハイブに拡張テーブル データのクエリを実行すると、すべての拡張情報がほぼ JSON の巨大なブロブとして 1 列または 2 列に出力されます。この情報を解析する便利な方法はありますか?

または、CombinedHiveInputFormat を手動で使用する方法に関するドキュメントを参照できれば、コードがさらに簡素化されます。しかし、InputFormat はカスタム構造体を使用して、Hive 内でのみ使用されているようです。

最終的に、私が知りたいのは、マッパーが作業している分割のテーブル名、列 (パーティションを除く)、およびパーティションの場所を知ることです。これを達成するためのさらに別の方法があれば、知りたいと思っています。

0 投票する
1 に答える
4184 参照

hive - Hadoop Hive - 文字列の分割

私は新しい蜂の巣です。

My Query :ログ ファイルには、「GET /img/home/search-user-ico.jpg HTTP/1.1」のようなリクエスト フィールドがあります。10,000 を超えるレコードが利用可能です。

例 :

"GET /img/home/search-user-ico.jpg HTTP/1.1"
"GET /JavaScript/jquery-1.4.2.min.js HTTP/1.1" "GET /ems/home HTTP/1.1" "POST /ir HTTP/1.1" "GET /CSS/jquery/themes/base/jquery.ui.button.css HTTP/1.1" "GET /CSS/jquery/themes/base/images/ui-bg_glass_75_e6e6e6_1x400.png HTTP/1.1"
"GET /JavaScript/jquery/jquery-ui-1.8.5.custom.min.js HTTP/1.0"

このフィールド "GET /img/home/search-user-ico.jpg HTTP/1.1" から、この部分/img/home/search-user-ico.jpgのみが必要で、GET、POST、およびから分割したいHTTP/1.1 なので、wiki で利用可能な文字列関数を使用してこれを分割する方法を教えてください。wiki で利用可能な構文のいくつかを試してみましたが、今は無力です。

私は次のような構文で試しました

logfile limit 10 から regexp_extract(request,'a-zA-Za-zA-Z[a-zA-Z]',2) を選択します。

logfile limit 10 から regexp_extract(request,'GET(\s)([a-zA-Z])',2) を選択します。

logfile limit 10 からregexp_extract(request,'. ?(\s)(. ?)(\s)(.*?)',2) を選択します。

logfile limit 10 からregexp_extract(request,'. (\s)(. )(\s)(.*)',2) を選択します。

ありがとう -ジョー

0 投票する
1 に答える
14666 参照

hadoop - Hive に格納されたデータに対して Pig クエリを実行する

Hive 形式で保存された Pig クエリを実行する方法を知りたいです。圧縮データを格納するように Hive を構成しました (このチュートリアルhttp://wiki.apache.org/hadoop/Hive/CompressedStorageを使用)。

それ以前は、Hive の区切り文字 (^A) を使用して通常の Pig ロード関数を使用していました。しかし現在、Hive は圧縮されたシーケンス ファイルにデータを格納します。どの負荷関数を使用しますか?

ここで述べたような緊密な統合は必要ないことに注意してください: Using Hive with Pig、Hive によって生成された圧縮シーケンス ファイルを読み取るために使用するロード関数だけです。

すべての答えをありがとう。

0 投票する
3 に答える
90318 参照

group-by - キーでグループ化されていないハイブ式

HIVE でテーブルを作成します。次の列があります。

月ごとの平均(ランク)を取得したい。このコマンドを使用できます。できます。

ただし、日付情報も取得したい。私はこのコマンドを使用します:

それは不平を言う:Expression Not In Group By Key

0 投票する
3 に答える
28361 参照

hadoop - HDFSからHiveテーブルへのデータのインポート

データはHDFSのdata/2011/01/13/0100 / fileにあります。各ファイルには、名前、IP、URLなどのタブで区切られたデータが含まれています。

Hiveでテーブルを作成し、hdfsからデータをインポートしたいのですが、テーブルにはtime、name、ip、urlが含まれている必要があります。

Hiveを使用してこれらをインポートするにはどうすればよいですか?r時刻もインポートできるように、データは他の形式にする必要がありますか?