問題タブ [tez]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - メモリ内バッファに対してレコードが大きすぎます。TEZ 経由で Hive の ORC テーブルを操作する際のエラー
HIVE (1.2.1) の「ORC」テーブルからデータを読み取り、そのデータを「TextInputFormat」でテーブルに入れようとしています。一部のエントリが元のデータでは大きすぎるため、操作中に次のエラーが発生します:
org.apache.hadoop.hive.ql.metadata.HiveException: org.apache.tez.runtime.library.common.sort.impl.ExternalSorter$MapBufferTooSmallException: メモリ内バッファーに対してレコードが大きすぎます。バッファ オーバーフロー制限を超えました。bufferOverflowRecursion=2、bufferList.size=1、blockSize=1610612736
問題を解決する方法はありますか?
クエリの実行には TEZ エンジンを使用していますが、単純な MR エンジンではエラーは発生しません。
実行するクエリ:
Upd: ORC から ORC ストレージにコピーするときの同じエラー。
Upd 2: ORC からの単純な「選択」は、どのエンジンでもうまく機能します。
hadoop - Hadoop クラスター。多数の TCP 再送信
2 つのネームノード、13 のデータノード、およびメタ用の DB を備えた 1 つの「メディエーター」マシンを含む hadoop2 クラスターがあります。ネームノードとデータノードは同じデータセンターにありますが、メタ DB はリモート側にあります。
MR ジョブを実行すると、多くの TCP 再送信が発生し、すべてのノード間で TCP パケットが重複します。
それはまったく正常な動作ですか?
hadoop - Hive / Tez ジョブが開始されない
HDFS のテキスト ファイルからインポートしてORC table
、Hive で作成しようとしています。さまざまな方法を試し、オンラインでヘルプを検索しましたが、挿入ジョブが開始されません。
テキスト ファイルを HDFS に取得することはできます。テキスト ファイルを Hive に読み取ることはできますが、そこから ORC に変換することはできません。
この質問への参照として使用できるものを含め、さまざまなバリエーションを試しました。
単一ノードの HDP クラスター (開発に使用) があります - バージョン:
HDP-2.3.2.0
(2.3.2.0-2950)
関連するサービスのバージョンは次のとおりです。
サービス バージョン ステータス 説明
HDFS 2.7.1.2.3 インストール済み Apache Hadoop 分散ファイル システム
MapReduce2 2.7.1.2.3 インストール済み Apache Hadoop NextGen MapReduce (YARN)
YARN 2.7.1.2.3 インストール済み Apache Hadoop NextGen MapReduce (YARN)
Tez 0.7.0.2.3 インストール済み Tez は、YARN の上に書かれた次世代の Hadoop クエリ処理フレームワークです。
Hive 1.2.1.2.3 大規模なデータセットのアドホック クエリと分析、およびテーブルとストレージの管理サービス用にインストールされたデータ ウェアハウス システム
このような SQL を実行するとどうなりますか (ここでも、オンライン チュートリアルから直接取得するなど、多くのバリエーションを試しました)。
INSERT OVERWRITE TABLE mycars SELECT * FROM cars;
私の仕事はこのままです:
アプリケーションの総数 (アプリケーションの種類: [] および状態:
[送信済み、承認済み、実行中]):1
そして、それはただそこにぶら下がっています。(文字通り、 20 行のサンプル テーブルを試し、数時間実行してから強制終了しました)。
私は決して (まだ) Hadoop の専門家ではなく、おそらく構成の問題であると確信していますが、それを理解することはできませんでした。
ドロップ テーブルの作成、テキスト テーブルへのファイルのロード、選択など、私が試した他のすべての Hive 操作はすべて正常に動作します。これを行うのは、ORCテーブルを作成するときだけです。そして、私の要件には ORC テーブルが必要です。
どんなアドバイスも役に立ちます。
hadoop - 重複したリソースを追加しようとしています: guava-11.0.2.jar
Tez Mode を使用して豚のスクリプトを実行しようとしています。Pig スクリプトをローカル モード、つまり pig -x tez_local で実行できますが、同じ pig スクリプトを tez モード、つまり pig -x tez で実行するとエラーが発生します。
エラーの詳細を説明するスクリーンショットを添付しています。Tez モードのスクリーンショット
私は pig 0.14.0 と tez 0.5.4、Hadoop-2.6.0 を使用しています。このエラーを取り除くために誰か助けてください。
ありがとうございました 。
hadoop - ハイブ ジョブが java.io.FileNotFoundException で失敗しました
--- hive.log
--- Hadoop からのジョブログ
何が問題なのかを確認してください。ありがとう!
hadoop - 並べ替えられたが並べ替えなしで挿入された Hive テーブル
何が起こるか
create table X (...) clustered by(date) sorted by (time)
しかし、並べ替えなしで挿入されました
insert into x select * from raw
raw からフェッチした後、挿入する前にデータをソートしますか?
ソートされていないデータが挿入された場合 create table ステートメントで "sorted by" は何をしますか。後の選択クエリのヒントとして機能しますか?