問題タブ [hive]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Hive は HBase と比べてどうですか?
最近リリースされた ( http://mirror.facebook.com/facebook/hive/hadoop-0.17/ ) Hive と HBase のパフォーマンスの比較に興味があります。Hive で使用される SQL に似たインターフェイスは、実装した HBase API よりもはるかに優れています。
c# - C#.NET レジストリ ハイブのインポートとその内容の解析
レジストリから .Hive ファイルを受け取りました。このファイルを解析して、その内容を HTML レポートの一部として使用する必要があります (このことから、何らかの形でテキストに変換する必要があると思います)。すべてをプログラム内で行う必要があるため、ハイブファイルを変換してプログラムで実行することはできません。現在、これを開始する方法さえわからないので、これに関するヘルプは素晴らしいでしょう.
どんなアイデアも素晴らしいでしょう!
rdbms - Hbase スキーマの設計方法
この RDBM テーブル ( Entity-attribute-value_model ) があるとします。
スケーリングの問題により、HBase を使用したいと考えています。
Hbase テーブルにアクセスする唯一の方法は、主キー (カーソル) を使用することです。特定のキーのカーソルを取得し、行を 1 つずつ反復できます。
問題は、私の場合、3 つの列すべてを反復できるようにしたいということです。例えば :
- 指定されたエンティティIDについて、そのすべての属性と値を取得したい
- 特定の属性名と値に対して、すべてのentitiIDSが必要です...
したがって、私が持っていた1つのアイデアは、データを保持する1つのHbaseテーブル(エンティティIDをプライマリインデックスとして持つテーブルDATA)と、2つの「インデックス」テーブルを構築することです。
各インデックス テーブルは、DATA テーブルのポインター (entityID) のリストを保持します。
それは合理的なアプローチですか?それともHbaseの概念の「乱用」ですか?
HBase では、主キーによる get 操作と行範囲のスキャン (カーソルを考えてください) が可能です。(スケールとセカンダリ インデックスの必要性の両方がある場合でも、心配する必要はありません。Lucene が助けてくれます! しかし、それは別の投稿です。)
Lucene がどのように役立つか知っていますか?
-- よなたん
jdbc - hadoopハイブの質問
JDBCを使用して実用的にテーブルを作成しようとしています。ただし、ハイブシェルから作成したテーブルは実際には表示されません。さらに悪いことに、異なるディレクトリからハイブシェルにアクセスすると、データベースの結果が異なります。設定する必要のある設定はありますか?
前もって感謝します。
java - CachedRowSetImpl.execute() を使用せずに ResultSet をコピーする
クエリの実行後に接続を閉じようとしています。以前は、CachedRowSetImpl
インスタンスを作成するだけで、インスタンスがリソースを解放してくれました。ただし、Hadoop プロジェクトの Hive データベース ドライバーを使用しています。には対応していませんCachedRowSetImpl.execute()
。ResultSet
オブジェクトをコピーして接続を閉じることができる他の方法があるかどうか疑問に思っていますか?
hadoop - BigTable で OLAP を実行できますか?
以前は、MySQL で実行される OLAP キューブを使用して WebAnalytics を構築していました。さて、私が使用した OLAP キューブは、各行が基本的に測定値または測定値の集計セットである単純な大きなテーブルです (OK、それよりも少し賢く格納されています)。各測定値には、一連のディメンション (つまり、どのページ名、ユーザーエージェント、IP など) と一連の値 (つまり、ページビュー数、訪問者数など) があります。
このようなテーブルで実行するクエリは、通常、次の形式 (メタ SQL) です。
したがって、前述のフィルターを使用して、選択した日の各時間の合計を取得します。障害の 1 つは、これらのキューブは通常、完全なテーブル スキャンを意味し (さまざまな理由)、これは、これらのものを作成できるサイズ (MiB 単位) の実際的な制限を意味することでした。
私は現在、Hadoop などの詳細を学んでいます。
上記のクエリを BigTable で mapreduce として実行するのは簡単に見えます。「hour」をキーにして、マップをフィルター処理し、値を合計して reduce するだけです。
バッチ モードではなく、BigTable の種類のシステムで、上に示したような (または少なくとも同じ出力で) クエリを実行できますか?
そうでない場合; BigTable/Hadoop/HBase/Hive などの領域でこのようなことを行うための適切なテクノロジは何ですか?
java - Apache Hive のビルド - 依存関係を解決できない
http://wiki.apache.org/hadoop/Hive/GettingStartedに従って Apache Hive を試していますが、Ivy から次のエラーが発生しています。
このエラーは、Hadoop の 4 つの異なるバージョンで 4 回繰り返され、ビルドが停止します。
2 つの質問があります。
- これらのファイルを手動でダウンロードしてビルドに渡すにはどうすればよいですか?
- バイナリをビルドするためだけに、Hive が 4 つの異なるバージョンの Hadoop をダウンロードする必要があるのはなぜですか?
java - Java で Hive への非同期呼び出しを行うにはどうすればよいですか?
サーバー上で非同期に Hive クエリを実行したいと考えています。Hive クエリは完了するまでに時間がかかる可能性が高いため、呼び出しをブロックしないことをお勧めします。現在、Thirft を使用してブロッキング呼び出し (client.execute() をブロック) を行っていますが、非ブロッキング呼び出しを行う方法の例を見たことがありません。ブロッキングコードは次のとおりです。
上記のコードには、簡潔にするために try/catch ブロックがありません。
非同期呼び出しを行う方法を知っている人はいますか? Hive/Thrift はそれをサポートできますか? より良い方法はありますか?
ありがとう!
hadoop - Hadoop Hive Web インターフェイス オプション
私はいくつかのデータ マイニング アクティビティで Hive を試してきましたが、コマンド ラインをあまり使用しない同僚にも簡単に利用できるようにしたいと考えています。
Hive には Web インターフェイス ( http://wiki.apache.org/hadoop/Hive/HiveWebInterface ) が付属していますが、この段階では非常に基本的なものです。
私の質問は、Hive への視覚的に洗練されたフル機能のインターフェイス (デスクトップまたはできれば Web ベース) がまだ存在するかどうかです。Hive プロジェクト以外のオープンソースの取り組みはこれに取り組んでいますか?
hadoop - Hadoop を使用している場合、リデューサーはすべてのレコードを同じキーで取得することが保証されていますか?
実際にHiveを使用してHadoopジョブを実行していますが、これuniq
は多くのテキストファイルの行に想定されています。reduce ステップでは、各キーの最新のタイムスタンプ付きレコードを選択します。
Hadoop は、map ステップによって出力された同じキーを持つすべてのレコードが、クラスター全体で多くのレデューサーが実行されている場合でも、単一のレデューサーに送られることを保証しますか?
同じキーを持つ一連のレコードの途中でシャッフルが発生した後、マッパーの出力が分割されるのではないかと心配しています。