1

ここから始めるには、いくつかのサンプルデータがあります

サンプル入力

ID      Date                   Value
10      2012-06-01 00:01:45    20
10      2012-06-01 00:01:51    12
10      2012-06-01 00:01:56    21
10      2012-06-01 00:02:01    43
10      2012-06-01 00:02:06    12
17      2012-06-01 00:02:43    64
17      2012-06-01 00:02:47    53
17      2012-06-01 00:02:52    23
17      2012-06-01 00:02:58    45
17      2012-06-01 00:03:03    34

望ましい出力

ID      Date
10      2012-06-01 00:01:45    2012-06-01 00:02:06    20    12
17      2012-06-01 00:02:43    2012-06-01 00:03:03    64    34

そのため、最初と最後の日付、および両方の値を 1 行に取得しようとしています。テーブルの ID 値には、後日他のエントリも含まれるため、一連のエントリの最初と最後だけを取得したいと考えています。各エントリは 5 秒間隔です。それらが大きい場合、それは新しいチェーンです。

助言がありますか?

ありがとう

4

2 に答える 2

0

これについて検索プロセスを開始したところですが、おそらくユーザー定義関数または2つがあなたの友人であるようLATERAL VIEWに見えます.EXPLODE

于 2013-05-29T21:42:59.410 に答える
0

ハイブを使用する代わりに、データの csv ファイルを操作する MapReduce ジョブを作成することになりました。

IDに基づいて「マッピング」しました。次に、データがさらに2時間離れている場合にパラメータを設定します。

結局、MapReduce コードを簡単にハッキングして、ハイブ クエリを熟考することができました。

于 2013-05-29T21:48:09.400 に答える