問題タブ [data-ingestion]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
postgresql - フラット ファイルから GPFdist を挿入すると、挿入時に「"UTF8" をエンコードするための無効なバイト シーケンス: 0x00」というエラーがスローされる
大きなフラット ファイルからデータを取り込むために書いているプロセスで問題に直面しています。次のように、UTF8仕様のpythonラッパーを使用してフラットファイルを前処理しています。
wrFile = io.open("outFile","w+",encoding='utf8')
次を使用して、ソースファイルを1行ずつ読み取っています。
lineACT = linecache.getline("inFile", i+j)
lineNxt = linecache.getline("inFile", i+j+1)
さらに、行を前処理した後、次のようにファイルを書き込んでいます
wrFile.write(lineACT)
。
postgresql
これで、次のクエリを使用してファイルを外部テーブルに取り込む準備が整いました。ローダー アプリケーションが記述されJava
、プロパティ ファイルを使用してすべての構成が渡されます。
ボックスでこれを実行するとUNIX
、例外がスローされます。
注: outFile の各行は 1655 文字です。outTableとdeltaTableの両方の列構造も 1655 です。errorTable にチェックインすると、errmsg
列に次のように表示されます。
今、私がチェックしたデータベースのエンコーディングプロパティが原因で、データベースがファイル内のnull
文字を受け入れていないと推測しています'0x00'
'UTF8'
次のbashコマンドを使用して、ファイルからヌル文字を削除しようとしました:
&
しかし、今まで何も機能していません。誰かがこれを機能させる方法について何か提案をしてもらえますか?
--
前もって感謝します!
elasticsearch - 取り込みアタッチメントelasticsearchプラグインのbase64保存を無効にする方法は?
ドキュメントには、ingest-attachment プラグインを介して base64 ドキュメントを Elasticsearch に保存する方法の例が示されています。しかし、この後、elasticsearch インデックスに解析済みテキストと base64 フィールド ソースが含まれていることがわかりました。なぜそれが必要なのですか?base64 テキスト フィールドを削除し、コンテンツではなくドキュメントにインデックスを付けた後、テキストのみを保持する方法はありますか?
mysql - sqoopを使用してmysqlからhdfsに暗号化された列データをインポートする方法は?
mysql で暗号化された学生 ID を含むテーブルがあるとします。sqoop を使用してそのデータを hdfs にインポートするにはどうすればよいですか?
java - Java アプリケーションから BigQuery にデータを取り込む方法
Java アプリケーションから BigQuery にデータを取り込みたいと考えています。BigQuery API を直接使用している場合、パフォーマンスの問題はありますか? アプリケーションは AWS で実行されています。