問題タブ [beeline]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-s3 - Spark Beeline で S3 から外部テーブルを作成する
4 ノード クラスタの各ノードの /etc/dse/spark/hive-site.xml に以下の変更を加えます。
spark thrift サーバーと spark-beeline クライアントが実行されるノードで以下の ENV 変数を設定します export AWS_SECRET_ACCESS_KEY=****
export AWS_ACCESS_KEY_ID=*****
以下のようにSparkスリフトサーバーを起動しました
ソースとして S3 バケットを使用して Spark Beeline からテーブルを作成しました
以下のエラーが表示されます
注: AWS キーは有効であり、他の Python スクリプトで動作しています。
hadoop - Beeline が CSV ファイルをロードしない
そのため、簡単な分析のために CSV ファイルをビーラインにロードし、hadoop スイートを使い始めようとしています。次のコマンドを使用しています
CREATE EXTERNAL TABLE IF NOT EXISTS babies(
PseudoID_voorkeur INT,
OpnameID INT,
Specialisme VARCHAR(32),
Opnamecategorie VARCHAR(32),
OpnamecategorieOmschrijving VARCHAR(32),
OpnametypeID VARCHAR(32),
OpnametypeOmschrijving VARCHAR(32),
OpnamesubtypeID VARCHAR(32),
BehandelcategorieID_OPN VARCHAR(32),
BehandelcategorieOmschr_OPN VARCHAR(32),
BehandelcodeID VARCHAR(32),
BehandelcodeOmschrijving VARCHAR(32),
OpnamelocatieID VARCHAR(32),
OpnamelocatieOmschrijving VARCHAR(32),
AfdelingID_OPN VARCHAR(32),
AfdelingOmschrijving_OPN VARCHAR(32),
Behandelaar VARCHAR(32),
Aanmelder VARCHAR(32),
HerkomstID VARCHAR(32),
HerkomstOmschrijving VARCHAR(32),
Spoed_OPN INT,
ScreeningstatusID_OPN VARCHAR(32),
ScreeningstatusOmschrijving_OPN VARCHAR(32),
OpnamestatusID_OPN INT,
OpnamestatusOmschrijving_OPN VARCHAR(32),
EersteOpname_OPN INT,
GebruikOK_OPN INT,
GewensteTermijn_OPN VARCHAR(32),
Inschrijfdatum_OPN STRING,
Wachtlijstdatum_OPN STRING,
UitersteDatum_OPN STRING,
GeplandeOpnamedatum_OPN STRING,
GeplandeOpnametijd_OPN VARCHAR(32),
GeplandeOntslagdatum_OPN STRING,
GeplandeOntslagtijd_OPN VARCHAR(32),
Oproepdatum_OPN STRING,
Opnamedatum_OPN STRING,
Opnametijd_OPN VARCHAR(32),
Ontslagdatum_OPN STRING,
Ontslagtijd_OPN VARCHAR(32),
Annuleringsdatum_OPN STRING,
Factureringsdatum_OPN STRING,
Mutatiedatum_OPN STRING,
Mutatietijd_OPN VARCHAR(32),
VerwachteOpnameduur_OPN VARCHAR(32),
BestemmingID VARCHAR(32),
BestemmingOmschrijving VARCHAR(32),
PseudoID_voorkeur1 INT,
Aanvraagnummer INT,
Broncode VARCHAR(32),
Labgroep_naam VARCHAR(32),
Labgroep_code INT,
Afnamedatum STRING,
Afnametijd VARCHAR(32),
Afdeling VARCHAR(32),
Aanvrager VARCHAR(32),
Bepaling VARCHAR(32),
Bepaling_omschrijving VARCHAR(32),
Bepaling_materiaal VARCHAR(32),
Uitslag_waarde VARCHAR(32),
Uitslag_eenheid VARCHAR(32),
Uitslag_grenswaarde_onder DOUBLE,
Uitslag_grenswaarde_boven DOUBLE,
Uitslag_grenswaarde_vlag VARCHAR(32),
Uitslag_status VARCHAR(32),
Zenddatum STRING,
Zendtijd VARCHAR(32) )ROW FORMAT
DELIMITED FIELDS TERMINATED BY "/073"
LINES TERMINATED BY '\n'
STORED AS TEXTFILE;
load data inpath '/user/cloudera/output/clean/neo.csv' overwrite into table babies;
これを試すと、処理された行が0になり、コードが出力として切り取られます。
Loading data to table default.babies
Table default.babies stats: [numFiles=1, numRows=0, totalSize=738077097, rawDataSize=0]
OK
No rows affected (2.564 seconds)
誰もこれを修正する方法を知っていますか? CSV ファイルは ; で区切られています。(/073 はこれを表し、行は改行で終わります