問題タブ [hive]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
windows-ce - フラッシュ内の Hive ベースのレジストリ
まず、ここの投稿を読みましたが、 まだ問題が発生しています。
再起動によって実際に結果を保存するハイブ ベースのレジストリを使用して、CE6 イメージを作成しようとしています。
- カタログ アイテムのハイブ設定にチェックを入れました。
- common.reg で、ハイブの場所 ([HKEY_LOCAL_MACHINE\init\BootVars] "SystemHive") を "Hard Drive\Registry" に設定しました (注: フラッシュは "Hard Drive" というデバイスとして表示されます)。
- common.reg で、同じ場所に "Flags"=dword:3 を設定して、ストレージ マネージャーと共にデバイス マネージャーをロードしました。
- これらの設定が「; HIVE BOOT SECTION」でラップされていることを確認しました。
ここから倒れ始めます。すべて正常にコンパイルされますが、ターゲット システムで起動すると、次のようになります。
- レジストリを置く「ハードディスク」と呼ばれるディレクトリ
- 永久フラッシュが存在する「Hard Disk2」という名前のデバイス
- レジストリに加えた変更は再起動時に失われます
私はまだ何が欠けていますか?レジストリがフラッシュに保存されないのはなぜですか?
奇妙なことに、レジストリ ディレクトリにランダムなファイル/ディレクトリを作成すると、再起動後もそこにあるため、このディレクトリが他のパーティション (私が配置しようとした場所) になくても、永続的なように見えます。 . 永続的である場合、レジストリ設定が保存されないのはなぜですか (つまり、イーサネット アダプタの IP アドレスですか?)
私は特定のプロファイルを使用していないので、このハイブ レジストリを永続的なストアにするための最後の手順について途方に暮れています。
amazon-ec2 - Amazon Elastic Mapreduce 上で Hive を使用して、Amazon Simple DB でデータを処理するにはどうすればよいですか?
Amazon Simple DB Domain に大量のデータがあります。Elastic Map Reduce (hadoop 上) で Hive を起動し、simpledb からデータをインポートするか、simpledb に接続して hiveql クエリを実行したいと考えています。データのインポートに問題があります。ポインタはありますか?
hadoop - Hadoop/Hive での均等なデータ分散
わずか 2 台のマシンで (実験用に) 小さな Hadoop セットアップを試みています。Hive を使用して、約 13GB のデータ、約 3900 万行のテーブル、レプリケーション ファクター 1 をロードしています。
私の問題は、hadoop が常にこのすべてのデータを単一のデータノードに格納することです。setrep を使用して dfs_replication 係数を 2 に変更した場合にのみ、hadoop は他のノードにデータをコピーします。バランサーも試しました($HADOOP_HOME/bin/start-balancer.sh -threshold 0
)。バランサーは、バランスをとるために約 5GB を移動する必要があることを認識します。しかし、言う:No block can be moved. Exiting...
そして終了:
レプリケーションなしで、Hadoop でデータを均等に分散する方法を提案できる人はいますか?
hadoop - 豚とハイブの違いは?なぜ両方を持っているのですか?
私のバックグラウンド - Hadoop の世界で 4 週間前。Cloudera の Hadoop VM を使用して、Hive、Pig、および Hadoop に少し手を加えました。Map-Reduce と GFS に関する Google の論文 ( PDF リンク) を読みました。
という事は承知しています-
Pig の言語 Pig Latin は (プログラマーの考え方に合うように) SQL からの移行であり、プログラミングの宣言型スタイルに似ており、Hive のクエリ言語は SQL によく似ています。
Pig は Hadoop の上に乗っており、原則として Dryad の上にも乗ることができます。私は間違っているかもしれませんが、Hive は Hadoop と密接に結びついています。
Pig Latin コマンドと Hive コマンドはどちらも、Map ジョブと Reduce ジョブにコンパイルされます。
私の質問 - 1 つ (Pig など) が目的を果たすことができる場合、両方を持つことの目標は何ですか。Pig が Yahoo! によって宣伝されているからでしょうか。Facebookのハイブ?
c# - .NET から Hadoop/Hive に接続する方法
Hive が実行されている Hadoop クラスターを使用するソリューションに取り組んでおり、.NET アプリケーションからジョブとハイブ クエリを送信して処理し、完了時に通知を受け取りたいと考えています。Java アプリケーションから直接アクセスする以外に、Hadoop とやり取りするための解決策が見つかりません。アクセスできる API はありますか?
mysql - 大規模な夜間/毎時 Hive/MySQL データ処理用の Spring-Batch
夜間/毎時データの要約と大量のデータの統計収集を実行する一連の Python ETL スクリプトを置き換えることを検討しています。
私が達成したいことは
- 堅牢性 - 失敗したジョブ/ステップは自動的に再開する必要があります。場合によっては、代わりに回復手順を実行したいことがあります。
- フレームワークは、クラッシュから回復できる必要があります。ここは粘り強さが必要だと思います。
- 監視 - ジョブ/ステップの進行状況を監視できる必要があり、できればパフォーマンスに関する履歴と統計を確認できる必要があります。
- トレーサビリティ - 実行の状態を理解できなければなりません
- 手作業による介入 - あると便利です... API / UI / コマンドラインからジョブを開始 / 停止 / 一時停止できます。
- シンプルさ - 代替品を導入するときに、同僚から怒ったような目で見られたくない... シンプルで理解しやすい API が必要です。
現在のスクリプトは次のことを行います。
- 多くのマシンからテキスト ログを収集し、Hadoop DFS にプッシュします。将来、このステップで Flume を使用する可能性があります ( http://www.cloudera.com/blog/2010/07/whats-new-in-cdh3b2-flume/を参照)。
- データに対してHiveサマリー クエリを実行し、新しい Hive テーブル / パーティションに挿入 (上書き) します。
- 新しい集計データをファイルに抽出し、MySql テーブルにロード (マージ) します。これは、後でオンライン レポートに必要なデータです。
- 新しく追加された MySql データ (MySql テーブルから) に対して追加の結合を実行し、データを更新します。
私の考えは、スクリプトをスプリングバッチに置き換えることです。Scriptellaも調べましたが、この場合は「単純すぎる」と思います。
Spring-Batch (主に古い投稿) でいくつかの悪い雰囲気を見たので、ここでいくつかの情報を得たいと思っています。また、Spring-Batch と Hive の統合についてもあまり見たことがなく、面倒です。
sql - 複数の行を1つのスペースで区切られた文字列に結合します
だから私はこのような5つの行を持っています
このようになるようにクエリを実行するにはどうすればよいですか?
apache-pig - Pig でハイブを使用する
ハイブ クエリに複数の外部結合があり、実行に非常に時間がかかります。それを複数の小さなクエリに分割し、豚を使用して変換を行うことが理にかなっているのだろうかと思っていました。
Pig スクリプト内でハイブ テーブルにクエリを実行したり、ハイブ テーブル データを読み取ったりする方法はありますか?
ありがとう
hive - Hive で外部 Java クラスを使用するカスタム関数を作成する
私はHiveでそれを行う方法を考えてきました。
たとえば、抽出したいログファイルに特定のフィールドがあり (これは Hive で既に可能です)、このフィールドの値を別のものにマップしたいと考えています。このマッピングは、Java クラスでコード化された独自のカスタム ビジネス ロジックによって決定されます。この Java クラスを Hive で使用するにはどうすればよいですか?
hadoop - Hiveには文字列分割機能がありますか?
Hiveに組み込まれている文字列分割関数を探していますか?たとえば、文字列が次の場合:
次に、次のような関数が必要です。
私が戻ってくるように:
そのような組み込みの分割関数はHiveに存在しますか?
しか見えませregexp_extract
んregexp_replace
。indexOf()
とsplit()
文字列関数が見たいです。