“orc”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

2828 参照

scala - HiveContext が Orcfile のスキーマを読み取っていません

次を実行すると：

列は、'empno'、'name'、'deptno' などの実際の名前とは対照的に、'_col0'、'_col1'、'_col2' などとして出力されます。

Hive で「describe mytable」を実行すると、列名が正しく出力されますが、「orcfiledump」を実行すると、_col0、_col1、_col2 も表示されます。「読み取り時にスキーマ」などを指定する必要がありますか? はいの場合、Spark/Scala でそれを行うにはどうすればよいですか?

注: 次のようにテーブルを作成しました。

注: これは、この問題 ( Hadoop ORC ファイル - 仕組み - メタデータのフェッチ方法) の複製ではありません。回答では、「Hive」を使用するように指示されており、次のように既に HiveContext を使用しているためです。

ところで、私は以下を含む独自の hive-site.xml を使用しています。

2016-08-02T17:12:09.497

0 投票する

3 に答える

5681 参照

hadoop - ORCファイルへの追加

私はビッグデータと関連技術に慣れていないので、既存の ORC ファイルにデータを追加できるかどうかわかりません。Java APIを使用して ORC ファイルを作成していますが、ライターを閉じると、ファイルを再度開いて新しいコンテンツを書き込むことができず、基本的に新しいデータを追加できません。

Java Api、Hive、またはその他の手段を使用して、既存の ORC ファイルにデータを追加する方法はありますか?

Javautil.DateオブジェクトをORCファイルに保存すると、ORCタイプは次のように保存されます。

Java BigDecimal の場合は次のとおりです。

これらは正しいですか、これに関する情報はありますか?

hadoop hive orc

2016-08-05T15:46:02.667

0 投票する

2 に答える

5600 参照

hive - パーティションとバケット ORC テーブル

ORC テーブルを作成すると、劇的に速度が向上することを理解しています。しかし、ORC テーブルを分割してバケット化することで、さらに改善できるでしょうか? もしそうなら、既存のORCテーブルでパーティショニングとバケット化を行う方法は?

hive apache-hive orc

2016-08-08T08:44:32.450

0 投票する

1 に答える

1294 参照

hadoop - TEXT 形式のパーティションテーブルを Hive の ORC 形式のテーブルにコピーする方法

次のようなテキスト形式のハイブテーブルがあります。 CREATE EXTERNAL TABLE op_log ( time string, debug string,app_id string,app_version string, ...more fields) PARTITIONED BY (dt string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE;

今、同じフィールドを持つorc形式のテーブルを作成します CREATE TABLE op_log_orc ( time string, debug string,app_id string,app_version string, ...more fields) PARTITIONED BY (dt string) STORED AS ORC tblproperties ("orc.compress" = "SNAPPY");

op_logからにコピーするとop_log_orc、次のエラーが発生します。

hive> insert into op_log_orc PARTITION(dt='2016-08-09') select * from op_log where dt='2016-08-09'; FAILED: SemanticException [Error 10044]: Line 1:12 Cannot insert into target table because column number/types are different ''2016-08-09'': Table insclause-0 has 62 columns, but query has 63 columns. hive>

hadoop hive orc

2016-08-09T03:08:21.113

0 投票する

1 に答える

1455 参照

apache-spark - pyspark 2.0 でメタストアなしで ORC ファイルを読み取る方法

メタストアなしで pyspark 2.0 を使用していくつかの ORC ファイルを読みたいです。データスキーマが ORC ファイルに埋め込まれているため、理論的には実行可能です。しかし、ここに私が得たものがあります：

ORC ファイルを読む正しい方法は何ですか?

apache-spark pyspark orc

2016-08-21T14:39:21.743

0 投票する

1 に答える

946 参照

azure - Azure SQL データウェアハウスからの Hadoop ORC テーブルのクエリ

Azure HDInsight で作成された ORC テーブルを Azure SQL Data Warehouse から読み取る際に問題が発生しています。以下のシーケンスを参照して、HDInsight インスタンスと Azure SQL データウェアハウスを設定しました。

以下の内容のテキストファイル(Sales.txt)を作成しました。

20150614 | 1 | 10.50
20150618 | 1 | 100.75
20150924 | 1 | 89.75
20160214 | 2 | 10456.90
20150922 | 3 | 34.70
20151021 | 3 | 43.70 20151225
| 3 |
3 | 65.90 20150608|5|398.90 20150929|5|981.80 20151225|5|482.80 20151231|5|289.60 20160214|5|688.50 20160531|5|682.80

次に、Azure で HDInsight クラスターを作成しました
データベースを作成しましたhadoopdb
次のクエリを使用して、そのデータベースに外部テーブルを作成しました
/li>
次のクエリを使用してデータをロードしました

LOAD DATA INPATH '/Sales.txt' INTO TABLE hadoopdb.salestxt;
次に、次のスクリプトで内部 ORC テーブルを作成しました
/li>
次のクエリでORCテーブルにデータを移動しました

INSERT OVERWRITE TABLE hadoopdb.salesorc SELECT * FROM hadoopdb.salestxt
次のクエリを実行すると、Hive エディターに結果が表示されます

select * from hadoopdb.sales
Azure SQL データウェアハウスに戻り、SSMS で次のクエリを使用してデータソースを作成しました。

);
以下を使用して外部ファイル形式を作成しました
/li>
作成されたスキーマ[hdp]
以下のスクリプトで EXTERNAL TABLE を作成しようとしています
/li>

ただし、このクエリは次のエラーで失敗します

メッセージ 105002、レベル 16、状態 1、行 1 EXTERNAL TABLE アクセスは、指定されたパス名 '/Sales.txt/' が存在しないため失敗しました。有効なパスを入力して、再試行してください。

「myclustercontainer@mystorageaccount.blob.core.windows.net/Sales.txt/Sales.txt」などの LOCATION のさまざまな組み合わせを試しました

Sales.txt ファイルは、場所 'myclustercontainer@mystorageaccount.blob.core.windows.net/Sales.txt/Sales.txt' のストレージアカウントに存在します。

何か不足していますか？

azure hadoop orc azure-sqldw

2016-08-26T14:57:26.990

0 投票する

1 に答える

386 参照

c# - C# OCR MODI の例でエラーが返される

http://www.codeproject.com/Articles/41709/How-To-Use-Office-2007-OCR-Using-C

OCRのこの例を見つけ、白い背景に黒い英語のテキストでC：/ ORCフォルダーにいくつかの画像を貼り付けましたが、この行でまだ例外が発生します

MODI.Document md = 新しい MODI.Document();

発言: System.Runtime.InteropServices.COMException (0x80040154): CLSID {40942A6C-1520-4132-BDF8-BDC1F71F547B} を持つコンポーネントの COM クラスファクトリを取得できませんでした: 次のエラーが原因で失敗しました: 80040154. at OCRSample.Form1.CheckFileType(String) directoryPath) c:\Users\Dmetrey\Desktop\OCRSample\OCRSample\Form1.cs:50行目

誰かがこの例外の原因を明確にすることができますか? 私はVS2013を使用しています。

c#exception orc

2016-09-01T20:33:24.913

問題タブ [orc]

Reference