“hive”の関連問題_Stack Overflow日本語サイト

0 投票する

7 に答える

43982 参照

hadoop - Hive は HBase と比べてどうですか?

最近リリースされた ( http://mirror.facebook.com/facebook/hive/hadoop-0.17/ ) Hive と HBase のパフォーマンスの比較に興味があります。Hive で使用される SQL に似たインターフェイスは、実装した HBase API よりもはるかに優れています。

mrhahn

2008-08-23T12:22:04.993

0 投票する

3 に答える

2062 参照

c# - C#.NET レジストリハイブのインポートとその内容の解析

レジストリから .Hive ファイルを受け取りました。このファイルを解析して、その内容を HTML レポートの一部として使用する必要があります (このことから、何らかの形でテキストに変換する必要があると思います)。すべてをプログラム内で行う必要があるため、ハイブファイルを変換してプログラムで実行することはできません。現在、これを開始する方法さえわからないので、これに関するヘルプは素晴らしいでしょう.

どんなアイデアも素晴らしいでしょう！

c#text registry parsing hive

2008-11-24T11:59:50.677

0 投票する

2 に答える

8934 参照

rdbms - Hbase スキーマの設計方法

この RDBM テーブル ( Entity-attribute-value_model ) があるとします。

スケーリングの問題により、HBase を使用したいと考えています。

Hbase テーブルにアクセスする唯一の方法は、主キー (カーソル) を使用することです。特定のキーのカーソルを取得し、行を 1 つずつ反復できます。

問題は、私の場合、3 つの列すべてを反復できるようにしたいということです。例えば：

指定されたエンティティIDについて、そのすべての属性と値を取得したい
特定の属性名と値に対して、すべてのentitiIDSが必要です...

したがって、私が持っていた1つのアイデアは、データを保持する1つのHbaseテーブル（エンティティIDをプライマリインデックスとして持つテーブルDATA）と、2つの「インデックス」テーブルを構築することです。

各インデックステーブルは、DATA テーブルのポインター (entityID) のリストを保持します。

それは合理的なアプローチですか？それともHbaseの概念の「乱用」ですか?

このブログで、著者は次のように述べています。

HBase では、主キーによる get 操作と行範囲のスキャン (カーソルを考えてください) が可能です。(スケールとセカンダリインデックスの必要性の両方がある場合でも、心配する必要はありません。Lucene が助けてくれます! しかし、それは別の投稿です。)

Lucene がどのように役立つか知っていますか?

-- よなたん

rdbms hadoop hbase hive

Yonatan Maman

2008-12-17T16:42:51.613

0 投票する

5 に答える

1447 参照

jdbc - hadoopハイブの質問

JDBCを使用して実用的にテーブルを作成しようとしています。ただし、ハイブシェルから作成したテーブルは実際には表示されません。さらに悪いことに、異なるディレクトリからハイブシェルにアクセスすると、データベースの結果が異なります。設定する必要のある設定はありますか？

前もって感謝します。

jdbc hadoop hive

2009-07-17T05:37:24.557

0 投票する

1 に答える

3170 参照

java - CachedRowSetImpl.execute() を使用せずに ResultSet をコピーする

クエリの実行後に接続を閉じようとしています。以前は、CachedRowSetImplインスタンスを作成するだけで、インスタンスがリソースを解放してくれました。ただし、Hadoop プロジェクトの Hive データベースドライバーを使用しています。には対応していませんCachedRowSetImpl.execute()。ResultSetオブジェクトをコピーして接続を閉じることができる他の方法があるかどうか疑問に思っていますか?

java hadoop resultset hive cachedrowset

2009-07-20T01:11:04.080

0 投票する

5 に答える

8149 参照

hadoop - BigTable で OLAP を実行できますか?

以前は、MySQL で実行される OLAP キューブを使用して WebAnalytics を構築していました。さて、私が使用した OLAP キューブは、各行が基本的に測定値または測定値の集計セットである単純な大きなテーブルです (OK、それよりも少し賢く格納されています)。各測定値には、一連のディメンション (つまり、どのページ名、ユーザーエージェント、IP など) と一連の値 (つまり、ページビュー数、訪問者数など) があります。

このようなテーブルで実行するクエリは、通常、次の形式 (メタ SQL) です。

したがって、前述のフィルターを使用して、選択した日の各時間の合計を取得します。障害の 1 つは、これらのキューブは通常、完全なテーブルスキャンを意味し (さまざまな理由)、これは、これらのものを作成できるサイズ (MiB 単位) の実際的な制限を意味することでした。

私は現在、Hadoop などの詳細を学んでいます。

上記のクエリを BigTable で mapreduce として実行するのは簡単に見えます。「hour」をキーにして、マップをフィルター処理し、値を合計して reduce するだけです。

バッチモードではなく、BigTable の種類のシステムで、上に示したような (または少なくとも同じ出力で) クエリを実行できますか?

そうでない場合; BigTable/Hadoop/HBase/Hive などの領域でこのようなことを行うための適切なテクノロジは何ですか?

hadoop olap mapreduce hbase hive

2009-09-14T21:59:29.360

0 投票する

1 に答える

1592 参照

java - Apache Hive のビルド - 依存関係を解決できない

http://wiki.apache.org/hadoop/Hive/GettingStartedに従って Apache Hive を試していますが、Ivy から次のエラーが発生しています。

このエラーは、Hadoop の 4 つの異なるバージョンで 4 回繰り返され、ビルドが停止します。

2 つの質問があります。

これらのファイルを手動でダウンロードしてビルドに渡すにはどうすればよいですか?
バイナリをビルドするためだけに、Hive が 4 つの異なるバージョンの Hadoop をダウンロードする必要があるのはなぜですか?

java ant hadoop ivy hive

2009-11-10T01:06:16.417

0 投票する

6 に答える

4718 参照

java - Java で Hive への非同期呼び出しを行うにはどうすればよいですか?

サーバー上で非同期に Hive クエリを実行したいと考えています。Hive クエリは完了するまでに時間がかかる可能性が高いため、呼び出しをブロックしないことをお勧めします。現在、Thirft を使用してブロッキング呼び出し (client.execute() をブロック) を行っていますが、非ブロッキング呼び出しを行う方法の例を見たことがありません。ブロッキングコードは次のとおりです。

上記のコードには、簡潔にするために try/catch ブロックがありません。

非同期呼び出しを行う方法を知っている人はいますか? Hive/Thrift はそれをサポートできますか? より良い方法はありますか？

ありがとう！

java asynchronous rpc thrift hive

2010-02-02T02:01:54.203

0 投票する

3 に答える

7567 参照

hadoop - Hadoop Hive Web インターフェイスオプション

私はいくつかのデータマイニングアクティビティで Hive を試してきましたが、コマンドラインをあまり使用しない同僚にも簡単に利用できるようにしたいと考えています。

Hive には Web インターフェイス ( http://wiki.apache.org/hadoop/Hive/HiveWebInterface ) が付属していますが、この段階では非常に基本的なものです。

私の質問は、Hive への視覚的に洗練されたフル機能のインターフェイス (デスクトップまたはできれば Web ベース) がまだ存在するかどうかです。Hive プロジェクト以外のオープンソースの取り組みはこれに取り組んでいますか?

hadoop hive

2010-04-03T12:06:38.260

0 投票する

3 に答える

6092 参照

hadoop - Hadoop を使用している場合、リデューサーはすべてのレコードを同じキーで取得することが保証されていますか?

実際にHiveを使用してHadoopジョブを実行していますが、これuniqは多くのテキストファイルの行に想定されています。reduce ステップでは、各キーの最新のタイムスタンプ付きレコードを選択します。

Hadoop は、map ステップによって出力された同じキーを持つすべてのレコードが、クラスター全体で多くのレデューサーが実行されている場合でも、単一のレデューサーに送られることを保証しますか?

同じキーを持つ一連のレコードの途中でシャッフルが発生した後、マッパーの出力が分割されるのではないかと心配しています。

hadoop mapreduce hive uniq

2010-04-13T21:16:17.853

問題タブ [hive]

Reference