問題タブ [tez]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
1412 参照

hadoop - メモリ内バッファに対してレコードが大きすぎます。TEZ 経由で Hive の ORC テーブルを操作する際のエラー

HIVE (1.2.1) の「ORC」テーブルからデータを読み取り、そのデータを「TextInputFormat」でテーブルに入れようとしています。一部のエントリが元のデータでは大きすぎるため、操作中に次のエラーが発生します:

org.apache.hadoop.hive.ql.metadata.HiveException: org.apache.tez.runtime.library.common.sort.impl.ExternalSorter$MapBufferTooSmallException: メモリ内バッファーに対してレコードが大きすぎます。バッファ オーバーフロー制限を超えました。bufferOverflowRecursion=2、bufferList.size=1、blockSize=1610612736

問題を解決する方法はありますか?

クエリの実行には TEZ エンジンを使用していますが、単純な MR エンジンではエラーは発生しません。

実行するクエリ:

Upd: ORC から ORC ストレージにコピーするときの同じエラー。

Upd 2: ORC からの単純な「選択」は、どのエンジンでもうまく機能します。

0 投票する
0 に答える
59 参照

hadoop - Hadoop クラスター。多数の TCP 再送信

2 つのネームノード、13 のデータノード、およびメタ用の DB を備えた 1 つの「メディエーター」マシンを含む hadoop2 クラスターがあります。ネームノードとデータノードは同じデータセンターにありますが、メタ DB はリモート側にあります。

MR ジョブを実行すると、多くの TCP 再送信が発生し、すべてのノード間で TCP パケットが重複します。

それはまったく正常な動作ですか?

0 投票する
1 に答える
2311 参照

hadoop - Hive / Tez ジョブが開始されない

HDFS のテキスト ファイルからインポートしてORC table、Hive で作成しようとしています。さまざまな方法を試し、オンラインでヘルプを検索しましたが、挿入ジョブが開始されません。

テキスト ファイルを HDFS に取得することはできます。テキスト ファイルを Hive に読み取ることはできますが、そこから ORC に変換することはできません。

この質問への参照として使用できるものを含め、さまざまなバリエーションを試しました。

http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.3.0/bk_dataintegration/content/moving_data_from_hdfs_to_hive_external_table_method.html

単一ノードの HDP クラスター (開発に使用) があります - バージョン:

HDP-2.3.2.0

(2.3.2.0-2950)

関連するサービスのバージョンは次のとおりです。

サービス バージョン ステータス 説明

HDFS 2.7.1.2.3 インストール済み Apache Hadoop 分散ファイル システム

MapReduce2 2.7.1.2.3 インストール済み Apache Hadoop NextGen MapReduce (YARN)

YARN 2.7.1.2.3 インストール済み Apache Hadoop NextGen MapReduce (YARN)

Tez 0.7.0.2.3 インストール済み Tez は、YARN の上に書かれた次世代の Hadoop クエリ処理フレームワークです。

Hive 1.2.1.2.3 大規模なデータセットのアドホック クエリと分析、およびテーブルとストレージの管理サービス用にインストールされたデータ ウェアハウス システム

このような SQL を実行するとどうなりますか (ここでも、オンライン チュートリアルから直接取得するなど、多くのバリエーションを試しました)。

INSERT OVERWRITE TABLE mycars SELECT * FROM cars;

私の仕事はこのままです:

アプリケーションの総数 (アプリケーションの種類: [] および状態:

[送信済み、承認済み、実行中]):1

そして、それはただそこにぶら下がっています。(文字通り、 20 行のサンプル テーブルを試し、数時間実行してから強制終了しました)。

私は決して (まだ) Hadoop の専門家ではなく、おそらく構成の問題であると確信していますが、それを理解することはできませんでした。

ドロップ テーブルの作成、テキスト テーブルへのファイルのロード、選択など、私が試した他のすべての Hive 操作はすべて正常に動作します。これを行うのは、ORCテーブルを作成するときだけです。そして、私の要件には ORC テーブルが必要です。

どんなアドバイスも役に立ちます。

0 投票する
1 に答える
73 参照

hadoop - 重複したリソースを追加しようとしています: guava-11.0.2.jar

Tez Mode を使用して豚のスクリプトを実行しようとしています。Pig スクリプトをローカル モード、つまり pig -x tez_local で実行できますが、同じ pig スクリプトを tez モード、つまり pig -x tez で実行するとエラーが発生します。

エラーの詳細を説明するスクリーンショットを添付しています。Tez モードのスクリーンショット

私は pig 0.14.0 と tez 0.5.4、Hadoop-2.6.0 を使用しています。このエラーを取り除くために誰か助けてください。

ありがとうございました 。

0 投票する
0 に答える
1958 参照

hadoop - ハイブ ジョブが java.io.FileNotFoundException で失敗しました

--- hive.log

--- Hadoop からのジョブログ

何が問題なのかを確認してください。ありがとう!

0 投票する
2 に答える
690 参照

hadoop - 並べ替えられたが並べ替えなしで挿入された Hive テーブル

何が起こるか create table X (...) clustered by(date) sorted by (time)

しかし、並べ替えなしで挿入されました insert into x select * from raw

raw からフェッチした後、挿入する前にデータをソートしますか?

ソートされていないデータが挿入された場合 create table ステートメントで "sorted by" は何をしますか。後の選択クエリのヒントとして機能しますか?

0 投票する
2 に答える
3312 参照

timeline - Tez ui にダグが表示されない

Tez でハイブを実行できますが、tez ui にジョブが表示されません。

そして、それは私を夢中にさせます!

ここに画像の説明を入力

ユーザーと名前はタイムラインサーバーでnullです ここに画像の説明を入力

構成は打撃です: tez-site.xml

および yarn-site.xml

そしてURL:

それらのすべて、私は以下の同じ応答を取得します: