問題タブ [apache-hive]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - serde を使用して Hive-0.14 で分析する単純な JSON ファイル
jsonserde を使用して json ファイルでハイブ コマンドを実行しようとしていますが、常に null 値を取得していますが、実際のデータは取得していません。「code.google.com/p/hive-json-serde/downloads/list」リンクで提供されている serde を使用しました。複数の方法を試しましたが、すべての試みが成功しませんでした。Apache Hive最新バージョン(0.14)でjsonファイルを操作するために、従うべき正確な手順とserdeを使用する方法を教えてください。
BR、サン
hive - export+distcp+import を使用せずに、別のハイブ クラスタで単純な HQL を実行した後、ハイブ テーブルを保存します。
クラスタ X にテーブル A があります。
いくつかの HQL (たとえば select * from A where A.country = 'INDIA'
) を実行し、出力をクラスター Y のテーブル B に保存したいと考えています。
テーブル Aで HQL を実行し、テーブル tempにデータを保存できます。次に、次のコマンドを使用して、このハイブ テーブルを クラスター Y のテーブル Bにエクスポートします。
このテーブル tempを作成するよりも良い方法はありますか?
hive - Hive テーブルの列名の長さを変更するには?
列名が通常より長いハイブ テーブルがあります。テーブル定義については、Hive メタストアを参照しました。これはどのように見えるかです:
出力:
column_name が 128 バイトの varchar2 として定義されていることがわかります。この値を変更できるハイブ メタストア設定はありますか?
更新: 問題が明確に説明されているこのチケットを参照してください。 https://issues.apache.org/jira/browse/HIVE-9815
アイデアは、データベース自体で MAX_STRING_SIZE を EXTENDED に設定することです。しかし、これはデータベース上の他の多くのものを台無しにします。
これに対する回避策はありますか?
java - Java API を使用した HIVE の DML
Hive テーブルで DDL と DML を実行するアプリケーションを作成しています。org.apache.hadoop.hive.ql.metadata.Hive
DDL には、バージョン 1.0 以降公開されている Hive クラスを使用します。DDL に最適で、JDBC やその他のオプションよりも高速だと思います。
しかし、JAVA (パーティション化されたテーブルとパーティション化されていないテーブル) で DML を実行する方法を見つけることができませんでした。残念ながら、この Java-API は文書化されておらず、サンプル コードが見つかりませんでした。JDBC などの API を使用せずに DML を実行するにはどうすればよいですか?
hadoop - hive-site.xml はデフォルトのプロパティをオーバーライドしません
ハイブのデフォルト プロパティを設定してオーバーライドしようとしていますhive-site.xml
が、効果がありません。問題のデバッグに役立つ可能性のあるいくつかのこと:
環境変数:
HIVE_CONF_DIR=$HIVE_HOME/conf HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HIVE_HOME/conf:$HIVE_HOME/lib HIVE_AUX_JARS_PATH=$HIVE_HOME/lib
パーミッション: ハイブディレクトリ全体にパーミッションを与え
777
ました (そうあるべきだとわかって733
いて、作るべきではないことはわかってい777
ますが、テストのためにやったのです)有効な XML: 無効な xml である可能性があると思いましたが、xsl 定義とタグはそのままで有効です。xml では問題ありません。
hive-env.sh
読まれていますが、何とも言えませんhive-site.xml
その他の詳細が必要な場合はコメントしてください。
perl - Thrift::API::HiveClient でステートメントを実行しようとすると、「Thrift::TException=HASH(0x122b9e0)」というエラーが表示されるのはなぜですか?
Perl スクリプトからApache Hiveに接続しようとしていますが、次のエラーが発生します。
Hadoop バージョン 2.7.0、Hive バージョン 1.1.0、および Thrift::API::HiveClient バージョン 0.003 で実行しています。私が使用しているスクリプトは次のとおりです。
これはバージョンの問題が原因である可能性がありますか、それとも他の何かですか?
Thrift-API-HiveClient-0.003
ディストリビューションに付属している次のスクリプトも実行してみました。
次の出力が得られます。
hive-site.xml を変更して HiveServer2 で NOSASL 認証を有効にすると、別のエラーが発生するようになりました。
を使用して動作しましたThrift::API::HiveClient2
hadoop - データベースが Cassandra である場合、レポートを管理します...Spark または Solr...またはその両方ですか?
私のデータベースはCassandra (datastax エンタープライズ => linux) です。レポート用の group-by、aggregate などをサポートしていないため、その基本に従って、Cassandra を使用するのは適切な決定ではありません。私はこの赤字についてグーグルで検索し、これ、これ、およびこれなどの結果を見つけました。
しかし、私は本当に混乱しました!Hiveは追加のテーブルを個別に使用します。Solrは全文検索などに適しています。そしてSpark …分析には便利なのですが、最終的にHadoopを使っているのかどうかわかりませんでした。
少なくとも、索引付けとグループ化が必要なレポートを多数作成する予定です。しかし、オーバーヘッドを課す追加のテーブルを使用したくありません。また、私は (Java ではなく) .Net 開発者であり、アプリケーションも.Net Frameworkに基づいています。
hadoop - ハイブで 1 つのテーブルに 2 回参加する
Hiveに実装する方法がわかりません。方法を提案してください。
このようなハイブテーブルがあるとします
これらのテーブルから、テーブル 1 のプライマリ値 (たとえば A) とセカンダリ値 (例: B) がテーブル 2 に存在し、値がゼロより大きい組織が少なくとも 1 つ存在する場合 (ここでは腎臓があります)、次のようになります。以下を印刷します (出力例)。
Hive でクエリを作成する方法を教えてください。
前もって感謝します。
apache-spark - ハイブの GenericUDF が Spark で 2 回実行される
こんにちは、ハイブのgenericUDFを作成して一時関数として登録する際に問題に直面していますが、それを2回呼び出すと、以下のコードを参照してください
次のコードでgenericUDFを作成します
そして、次のステートメントで登録すると
そして、次のコマンドでこの関数を呼び出すと
評価本文のprintステートメントを2回実行します。