問題タブ [orc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
2828 参照

scala - HiveContext が Orcfile のスキーマを読み取っていません

次を実行すると:

列は、'empno'、'name'、'deptno' などの実際の名前とは対照的に、'_col0'、'_col1'、'_col2' などとして出力されます。

Hive で「describe mytable」を実行すると、列名が正しく出力されますが、「orcfiledump」を実行すると、_col0、_col1、_col2 も表示されます。「読み取り時にスキーマ」などを指定する必要がありますか? はいの場合、Spark/Scala でそれを行うにはどうすればよいですか?

注: 次のようにテーブルを作成しました。

注: これは、この問題 ( Hadoop ORC ファイル - 仕組み - メタデータのフェッチ方法) の複製ではありません。回答では、「Hive」を使用するように指示されており、次のように既に HiveContext を使用しているためです。

ところで、私は以下を含む独自の hive-site.xml を使用しています。

0 投票する
3 に答える
5681 参照

hadoop - ORCファイルへの追加

私はビッグデータと関連技術に慣れていないので、既存の ORC ファイルにデータを追加できるかどうかわかりません。Java APIを使用して ORC ファイルを作成していますが、ライターを閉じると、ファイルを再度開いて新しいコンテンツを書き込むことができず、基本的に新しいデータを追加できません。

Java Api、Hive、またはその他の手段を使用して、既存の ORC ファイルにデータを追加する方法はありますか?

Javautil.DateオブジェクトをORCファイルに保存すると、ORCタイプは次のように保存されます。

Java BigDecimal の場合は次のとおりです。

これらは正しいですか、これに関する情報はありますか?

0 投票する
2 に答える
5600 参照

hive - パーティションとバケット ORC テーブル

ORC テーブルを作成すると、劇的に速度が向上することを理解しています。しかし、ORC テーブルを分割してバケット化することで、さらに改善できるでしょうか? もしそうなら、既存のORCテーブルでパーティショニングとバケット化を行う方法は?

0 投票する
1 に答える
1294 参照

hadoop - TEXT 形式のパーティション テーブルを Hive の ORC 形式のテーブルにコピーする方法

次のようなテキスト形式のハイブテーブルがあります。 CREATE EXTERNAL TABLE op_log ( time string, debug string,app_id string,app_version string, ...more fields) PARTITIONED BY (dt string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE;

今、同じフィールドを持つorc形式のテーブルを作成します CREATE TABLE op_log_orc ( time string, debug string,app_id string,app_version string, ...more fields) PARTITIONED BY (dt string) STORED AS ORC tblproperties ("orc.compress" = "SNAPPY");

op_logからにコピーするとop_log_orc、次のエラーが発生します。

hive> insert into op_log_orc PARTITION(dt='2016-08-09') select * from op_log where dt='2016-08-09'; FAILED: SemanticException [Error 10044]: Line 1:12 Cannot insert into target table because column number/types are different ''2016-08-09'': Table insclause-0 has 62 columns, but query has 63 columns. hive>

0 投票する
1 に答える
1455 参照

apache-spark - pyspark 2.0 でメタストアなしで ORC ファイルを読み取る方法

メタストアなしで pyspark 2.0 を使用していくつかの ORC ファイルを読みたいです。データ スキーマが ORC ファイルに埋め込まれているため、理論的には実行可能です。しかし、ここに私が得たものがあります:

ORC ファイルを読む正しい方法は何ですか?

0 投票する
1 に答える
946 参照

azure - Azure SQL データ ウェアハウスからの Hadoop ORC テーブルのクエリ

Azure HDInsight で作成された ORC テーブルを Azure SQL Data Warehouse から読み取る際に問題が発生しています。以下のシーケンスを参照して、HDInsight インスタンスと Azure SQL データ ウェアハウスを設定しました。

  1. 以下の内容のテキストファイル(Sales.txt)を作成しました。

20150614 | 1 | 10.50
20150618 | 1 | 100.75
20150924 | 1 | 89.75
20160214 | 2 | 10456.90
20150922 | 3 | 34.70
20151021 | 3 | 43.70 20151225
| 3 |
3 | 65.90 20150608|5|398.90 20150929|5|981.80 20151225|5|482.80 20151231|5|289.60 20160214|5|688.50 20160531|5|682.80







  1. 次に、Azure で HDInsight クラスターを作成しました

  2. データベースを作成しましたhadoopdb

  3. 次のクエリを使用して、そのデータベースに外部テーブルを作成しました

    /li>
  4. 次のクエリを使用してデータをロードしました

    LOAD DATA INPATH '/Sales.txt' INTO TABLE hadoopdb.salestxt;

  5. 次に、次のスクリプトで内部 ORC テーブルを作成しました

    /li>
  6. 次のクエリでORCテーブルにデータを移動しました

    INSERT OVERWRITE TABLE hadoopdb.salesorc SELECT * FROM hadoopdb.salestxt

  7. 次のクエリを実行すると、Hive エディターに結果が表示されます

    select * from hadoopdb.sales

  8. Azure SQL データ ウェアハウスに戻り、SSMS で次のクエリを使用してデータ ソースを作成しました。

    );

  9. 以下を使用して外部ファイル形式を作成しました

    /li>
  10. 作成されたスキーマ[hdp]

  11. 以下のスクリプトで EXTERNAL TABLE を作成しようとしています

    /li>

ただし、このクエリは次のエラーで失敗します

メッセージ 105002、レベル 16、状態 1、行 1 EXTERNAL TABLE アクセスは、指定されたパス名 '/Sales.txt/' が存在しないため失敗しました。有効なパスを入力して、再試行してください。

「myclustercontainer@mystorageaccount.blob.core.windows.net/Sales.txt/Sales.txt」などの LOCATION のさまざまな組み合わせを試しました

Sales.txt ファイルは、場所 'myclustercontainer@mystorageaccount.blob.core.windows.net/Sales.txt/Sales.txt' のストレージ アカウントに存在します。

何か不足していますか?

0 投票する
1 に答える
386 参照

c# - C# OCR MODI の例でエラーが返される

http://www.codeproject.com/Articles/41709/How-To-Use-Office-2007-OCR-Using-C

OCRのこの例を見つけ、白い背景に黒い英語のテキストでC:/ ORCフォルダーにいくつかの画像を貼り付けましたが、この行でまだ例外が発生します

MODI.Document md = 新しい MODI.Document();

発言: System.Runtime.InteropServices.COMException (0x80040154): CLSID {40942A6C-1520-4132-BDF8-BDC1F71F547B} を持つコンポーネントの COM クラス ファクトリを取得できませんでした: 次のエラーが原因で失敗しました: 80040154. at OCRSample.Form1.CheckFileType(String) directoryPath) c:\Users\Dmetrey\Desktop\OCRSample\OCRSample\Form1.cs:50行目

誰かがこの例外の原因を明確にすることができますか? 私はVS2013を使用しています。