問題タブ [orc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - HiveContext が Orcfile のスキーマを読み取っていません
次を実行すると:
列は、'empno'、'name'、'deptno' などの実際の名前とは対照的に、'_col0'、'_col1'、'_col2' などとして出力されます。
Hive で「describe mytable」を実行すると、列名が正しく出力されますが、「orcfiledump」を実行すると、_col0、_col1、_col2 も表示されます。「読み取り時にスキーマ」などを指定する必要がありますか? はいの場合、Spark/Scala でそれを行うにはどうすればよいですか?
注: 次のようにテーブルを作成しました。
注: これは、この問題 ( Hadoop ORC ファイル - 仕組み - メタデータのフェッチ方法) の複製ではありません。回答では、「Hive」を使用するように指示されており、次のように既に HiveContext を使用しているためです。
ところで、私は以下を含む独自の hive-site.xml を使用しています。
hadoop - ORCファイルへの追加
私はビッグデータと関連技術に慣れていないので、既存の ORC ファイルにデータを追加できるかどうかわかりません。Java APIを使用して ORC ファイルを作成していますが、ライターを閉じると、ファイルを再度開いて新しいコンテンツを書き込むことができず、基本的に新しいデータを追加できません。
Java Api、Hive、またはその他の手段を使用して、既存の ORC ファイルにデータを追加する方法はありますか?
Javautil.Date
オブジェクトをORCファイルに保存すると、ORCタイプは次のように保存されます。
Java BigDecimal の場合は次のとおりです。
これらは正しいですか、これに関する情報はありますか?
hive - パーティションとバケット ORC テーブル
ORC テーブルを作成すると、劇的に速度が向上することを理解しています。しかし、ORC テーブルを分割してバケット化することで、さらに改善できるでしょうか? もしそうなら、既存のORCテーブルでパーティショニングとバケット化を行う方法は?
hadoop - TEXT 形式のパーティション テーブルを Hive の ORC 形式のテーブルにコピーする方法
次のようなテキスト形式のハイブテーブルがあります。
CREATE EXTERNAL TABLE op_log (
time string, debug string,app_id string,app_version string, ...more fields)
PARTITIONED BY (dt string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE;
今、同じフィールドを持つorc形式のテーブルを作成します
CREATE TABLE op_log_orc (
time string, debug string,app_id string,app_version string, ...more fields)
PARTITIONED BY (dt string)
STORED AS ORC tblproperties ("orc.compress" = "SNAPPY");
op_log
からにコピーするとop_log_orc
、次のエラーが発生します。
hive> insert into op_log_orc PARTITION(dt='2016-08-09') select * from op_log where dt='2016-08-09';
FAILED: SemanticException [Error 10044]: Line 1:12 Cannot insert into target table because column number/types are different ''2016-08-09'': Table insclause-0 has 62 columns, but query has 63 columns.
hive>
apache-spark - pyspark 2.0 でメタストアなしで ORC ファイルを読み取る方法
メタストアなしで pyspark 2.0 を使用していくつかの ORC ファイルを読みたいです。データ スキーマが ORC ファイルに埋め込まれているため、理論的には実行可能です。しかし、ここに私が得たものがあります:
ORC ファイルを読む正しい方法は何ですか?
azure - Azure SQL データ ウェアハウスからの Hadoop ORC テーブルのクエリ
Azure HDInsight で作成された ORC テーブルを Azure SQL Data Warehouse から読み取る際に問題が発生しています。以下のシーケンスを参照して、HDInsight インスタンスと Azure SQL データ ウェアハウスを設定しました。
- 以下の内容のテキストファイル(Sales.txt)を作成しました。
20150614 | 1 | 10.50
20150618 | 1 | 100.75
20150924 | 1 | 89.75
20160214 | 2 | 10456.90
20150922 | 3 | 34.70
20151021 | 3 | 43.70 20151225
| 3 |
3 | 65.90 20150608|5|398.90 20150929|5|981.80 20151225|5|482.80 20151231|5|289.60 20160214|5|688.50 20160531|5|682.80
次に、Azure で HDInsight クラスターを作成しました
データベースを作成しました
hadoopdb
次のクエリを使用して、そのデータベースに外部テーブルを作成しました
/li>次のクエリを使用してデータをロードしました
LOAD DATA INPATH '/Sales.txt' INTO TABLE hadoopdb.salestxt;
次に、次のスクリプトで内部 ORC テーブルを作成しました
/li>次のクエリでORCテーブルにデータを移動しました
INSERT OVERWRITE TABLE hadoopdb.salesorc SELECT * FROM hadoopdb.salestxt
次のクエリを実行すると、Hive エディターに結果が表示されます
select * from hadoopdb.sales
Azure SQL データ ウェアハウスに戻り、SSMS で次のクエリを使用してデータ ソースを作成しました。
);
以下を使用して外部ファイル形式を作成しました
/li>作成されたスキーマ
[hdp]
以下のスクリプトで EXTERNAL TABLE を作成しようとしています
/li>
ただし、このクエリは次のエラーで失敗します
メッセージ 105002、レベル 16、状態 1、行 1 EXTERNAL TABLE アクセスは、指定されたパス名 '/Sales.txt/' が存在しないため失敗しました。有効なパスを入力して、再試行してください。
「myclustercontainer@mystorageaccount.blob.core.windows.net/Sales.txt/Sales.txt」などの LOCATION のさまざまな組み合わせを試しました
Sales.txt ファイルは、場所 'myclustercontainer@mystorageaccount.blob.core.windows.net/Sales.txt/Sales.txt' のストレージ アカウントに存在します。
何か不足していますか?
c# - C# OCR MODI の例でエラーが返される
http://www.codeproject.com/Articles/41709/How-To-Use-Office-2007-OCR-Using-C
OCRのこの例を見つけ、白い背景に黒い英語のテキストでC:/ ORCフォルダーにいくつかの画像を貼り付けましたが、この行でまだ例外が発生します
MODI.Document md = 新しい MODI.Document();
発言: System.Runtime.InteropServices.COMException (0x80040154): CLSID {40942A6C-1520-4132-BDF8-BDC1F71F547B} を持つコンポーネントの COM クラス ファクトリを取得できませんでした: 次のエラーが原因で失敗しました: 80040154. at OCRSample.Form1.CheckFileType(String) directoryPath) c:\Users\Dmetrey\Desktop\OCRSample\OCRSample\Form1.cs:50行目
誰かがこの例外の原因を明確にすることができますか? 私はVS2013を使用しています。