HDFS のテキスト ファイルからインポートしてORC table
、Hive で作成しようとしています。さまざまな方法を試し、オンラインでヘルプを検索しましたが、挿入ジョブが開始されません。
テキスト ファイルを HDFS に取得することはできます。テキスト ファイルを Hive に読み取ることはできますが、そこから ORC に変換することはできません。
この質問への参照として使用できるものを含め、さまざまなバリエーションを試しました。
単一ノードの HDP クラスター (開発に使用) があります - バージョン:
HDP-2.3.2.0
(2.3.2.0-2950)
関連するサービスのバージョンは次のとおりです。
サービス バージョン ステータス 説明
HDFS 2.7.1.2.3 インストール済み Apache Hadoop 分散ファイル システム
MapReduce2 2.7.1.2.3 インストール済み Apache Hadoop NextGen MapReduce (YARN)
YARN 2.7.1.2.3 インストール済み Apache Hadoop NextGen MapReduce (YARN)
Tez 0.7.0.2.3 インストール済み Tez は、YARN の上に書かれた次世代の Hadoop クエリ処理フレームワークです。
Hive 1.2.1.2.3 大規模なデータセットのアドホック クエリと分析、およびテーブルとストレージの管理サービス用にインストールされたデータ ウェアハウス システム
このような SQL を実行するとどうなりますか (ここでも、オンライン チュートリアルから直接取得するなど、多くのバリエーションを試しました)。
INSERT OVERWRITE TABLE mycars SELECT * FROM cars;
私の仕事はこのままです:
アプリケーションの総数 (アプリケーションの種類: [] および状態:
[送信済み、承認済み、実行中]):1
Application-Id Application-Name Application-Type User Queue State Final-State Progress Tracking-URL
application_1455989658079_0002 HIVE-3f41161c-b806-4e7d-974e-c18e028d683f TEZ hive root.hive ACCEPTED UNDEFINED 0% N/A
そして、それはただそこにぶら下がっています。(文字通り、 20 行のサンプル テーブルを試し、数時間実行してから強制終了しました)。
私は決して (まだ) Hadoop の専門家ではなく、おそらく構成の問題であると確信していますが、それを理解することはできませんでした。
ドロップ テーブルの作成、テキスト テーブルへのファイルのロード、選択など、私が試した他のすべての Hive 操作はすべて正常に動作します。これを行うのは、ORCテーブルを作成するときだけです。そして、私の要件には ORC テーブルが必要です。
どんなアドバイスも役に立ちます。