問題タブ [hive]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
7 に答える
43982 参照

hadoop - Hive は HBase と比べてどうですか?

最近リリースされた ( http://mirror.facebook.com/facebook/hive/hadoop-0.17/ ) Hive と HBase のパフォーマンスの比較に興味があります。Hive で使用される SQL に似たインターフェイスは、実装した HBase API よりもはるかに優れています。

0 投票する
3 に答える
2062 参照

c# - C#.NET レジストリ ハイブのインポートとその内容の解析

レジストリから .Hive ファイルを受け取りました。このファイルを解析して、その内容を HTML レポートの一部として使用する必要があります (このことから、何らかの形でテキストに変換する必要があると思います)。すべてをプログラム内で行う必要があるため、ハイブファイルを変換してプログラムで実行することはできません。現在、これを開始する方法さえわからないので、これに関するヘルプは素晴らしいでしょう.

どんなアイデアも素晴らしいでしょう!

0 投票する
2 に答える
8934 参照

rdbms - Hbase スキーマの設計方法

この RDBM テーブル ( Entity-attribute-value_model ) があるとします。

スケーリングの問題により、HBase を使用したいと考えています。

Hbase テーブルにアクセスする唯一の方法は、主キー (カーソル) を使用することです。特定のキーのカーソルを取得し、行を 1 つずつ反復できます。

問題は、私の場合、3 つの列すべてを反復できるようにしたいということです。例えば ​​:

  • 指定されたエンティティIDについて、そのすべての属性と値を取得したい
  • 特定の属性名と値に対して、すべてのentitiIDSが必要です...

したがって、私が持っていた1つのアイデアは、データを保持する1つのHbaseテーブル(エンティティIDをプライマリインデックスとして持つテーブルDATA)と、2つの「インデックス」テーブルを構築することです。

各インデックス テーブルは、DATA テーブルのポインター (entityID) のリストを保持します。

それは合理的なアプローチですか?それともHbaseの概念の「乱用」ですか?

このブログで、著者は次のように述べています。

HBase では、主キーによる get 操作と行範囲のスキャン (カーソルを考えてください) が可能です。(スケールとセカンダリ インデックスの必要性の両方がある場合でも、心配する必要はありません。Lucene が助けてくれます! しかし、それは別の投稿です。)

Lucene がどのように役立つか知っていますか?

-- よなたん

0 投票する
5 に答える
1447 参照

jdbc - hadoopハイブの質問

JDBCを使用して実用的にテーブルを作成しようとしています。ただし、ハイブシェルから作成したテーブルは実際には表示されません。さらに悪いことに、異なるディレクトリからハイブシェルにアクセスすると、データベースの結果が異なります。設定する必要のある設定はありますか?

前もって感謝します。

0 投票する
1 に答える
3170 参照

java - CachedRowSetImpl.execute() を使用せずに ResultSet をコピーする

クエリの実行後に接続を閉じようとしています。以前は、CachedRowSetImplインスタンスを作成するだけで、インスタンスがリソースを解放してくれました。ただし、Hadoop プロジェクトの Hive データベース ドライバーを使用しています。には対応していませんCachedRowSetImpl.execute()ResultSetオブジェクトをコピーして接続を閉じることができる他の方法があるかどうか疑問に思っていますか?

0 投票する
5 に答える
8149 参照

hadoop - BigTable で OLAP を実行できますか?

以前は、MySQL で実行される OLAP キューブを使用して WebAnalytics を構築していました。さて、私が使用した OLAP キューブは、各行が基本的に測定値または測定値の集計セットである単純な大きなテーブルです (OK、それよりも少し賢く格納されています)。各測定値には、一連のディメンション (つまり、どのページ名、ユーザーエージェント、IP など) と一連の値 (つまり、ページビュー数、訪問者数など) があります。

このようなテーブルで実行するクエリは、通常、次の形式 (メタ SQL) です。

したがって、前述のフィルターを使用して、選択した日の各時間の合計を取得します。障害の 1 つは、これらのキューブは通常、完全なテーブル スキャンを意味し (さまざまな理由)、これは、これらのものを作成できるサイズ (MiB 単位) の実際的な制限を意味することでした。

私は現在、Hadoop などの詳細を学んでいます。

上記のクエリを BigTable で mapreduce として実行するのは簡単に見えます。「hour」をキーにして、マップをフィルター処理し、値を合計して reduce するだけです。

バッチ モードではなく、BigTable の種類のシステムで、上に示したような (または少なくとも同じ出力で) クエリを実行できますか?

そうでない場合; BigTable/Hadoop/HBase/Hive などの領域でこのようなことを行うための適切なテクノロジは何ですか?

0 投票する
1 に答える
1592 参照

java - Apache Hive のビルド - 依存関係を解決できない

http://wiki.apache.org/hadoop/Hive/GettingStartedに従って Apache Hive を試していますが、Ivy から次のエラーが発生しています。

このエラーは、Hadoop の 4 つの異なるバージョンで 4 回繰り返され、ビルドが停止します。

2 つの質問があります。

  1. これらのファイルを手動でダウンロードしてビルドに渡すにはどうすればよいですか?
  2. バイナリをビルドするためだけに、Hive が 4 つの異なるバージョンの Hadoop をダウンロードする必要があるのはなぜですか?
0 投票する
6 に答える
4718 参照

java - Java で Hive への非同期呼び出しを行うにはどうすればよいですか?

サーバー上で非同期に Hive クエリを実行したいと考えています。Hive クエリは完了するまでに時間がかかる可能性が高いため、呼び出しをブロックしないことをお勧めします。現在、Thirft を使用してブロッキング呼び出し (client.execute() をブロック) を行っていますが、非ブロッキング呼び出しを行う方法の例を見たことがありません。ブロッキングコードは次のとおりです。

上記のコードには、簡潔にするために try/catch ブロックがありません。

非同期呼び出しを行う方法を知っている人はいますか? Hive/Thrift はそれをサポートできますか? より良い方法はありますか?

ありがとう!

0 投票する
3 に答える
7567 参照

hadoop - Hadoop Hive Web インターフェイス オプション

私はいくつかのデータ マイニング アクティビティで Hive を試してきましたが、コマンド ラインをあまり使用しない同僚にも簡単に利用できるようにしたいと考えています。

Hive には Web インターフェイス ( http://wiki.apache.org/hadoop/Hive/HiveWebInterface ) が付属していますが、この段階では非常に基本的なものです。

私の質問は、Hive への視覚的に洗練されたフル機能のインターフェイス (デスクトップまたはできれば Web ベース) がまだ存在するかどうかです。Hive プロジェクト以外のオープンソースの取り組みはこれに取り組んでいますか?

0 投票する
3 に答える
6092 参照

hadoop - Hadoop を使用している場合、リデューサーはすべてのレコードを同じキーで取得することが保証されていますか?

実際にHiveを使用してHadoopジョブを実行していますが、これuniqは多くのテキストファイルの行に想定されています。reduce ステップでは、各キーの最新のタイムスタンプ付きレコードを選択します。

Hadoop は、map ステップによって出力された同じキーを持つすべてのレコードが、クラスター全体で多くのレデューサーが実行されている場合でも、単一のレデューサーに送られることを保証しますか?

同じキーを持つ一連のレコードの途中でシャッフルが発生した後、マッパーの出力が分割されるのではないかと心配しています。