問題タブ [data-ingestion]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
444 参照

postgresql - フラット ファイルから GPFdist を挿入すると、挿入時に「"UTF8" をエンコードするための無効なバイト シーケンス: 0x00」というエラーがスローされる

大きなフラット ファイルからデータを取り込むために書いているプロセスで問題に直面しています。次のように、UTF8仕様のpythonラッパーを使用してフラットファイルを前処理しています。 wrFile = io.open("outFile","w+",encoding='utf8')

次を使用して、ソースファイルを1行ずつ読み取っています。 lineACT = linecache.getline("inFile", i+j) lineNxt = linecache.getline("inFile", i+j+1)

さらに、行を前処理した後、次のようにファイルを書き込んでいます wrFile.write(lineACT)

postgresqlこれで、次のクエリを使用してファイルを外部テーブルに取り込む準備が整いました。ローダー アプリケーションが記述されJava、プロパティ ファイルを使用してすべての構成が渡されます。

ボックスでこれを実行するとUNIX、例外がスローされます。

注: outFile の各行は 1655 文字です。outTabledeltaTableの両方の列構造も 1655 です。errorTable にチェックインすると、errmsg列に次のように表示されます。

今、私がチェックしたデータベースのエンコーディングプロパティが原因で、データベースがファイル内のnull文字を受け入れていないと推測しています'0x00''UTF8'

次のbashコマンドを使用して、ファイルからヌル文字を削除しようとしました:

&

しかし、今まで何も機能していません。誰かがこれを機能させる方法について何か提案をしてもらえますか?

--

前もって感謝します!

0 投票する
1 に答える
641 参照

elasticsearch - 取り込みアタッチメントelasticsearchプラグインのbase64保存を無効にする方法は?

ドキュメントには、ingest-attachment プラグインを介して base64 ドキュメントを Elasticsearch に保存する方法の例が示されています。しかし、この後、elasticsearch インデックスに解析済みテキストと base64 フィールド ソースが含まれていることがわかりました。なぜそれが必要なのですか?base64 テキスト フィールドを削除し、コンテンツではなくドキュメントにインデックスを付けた後、テキストのみを保持する方法はありますか?

0 投票する
0 に答える
128 参照

mysql - sqoopを使用してmysqlからhdfsに暗号化された列データをインポートする方法は?

mysql で暗号化された学生 ID を含むテーブルがあるとします。sqoop を使用してそのデータを hdfs にインポートするにはどうすればよいですか?

0 投票する
1 に答える
120 参照

java - Java アプリケーションから BigQuery にデータを取り込む方法

Java アプリケーションから BigQuery にデータを取り込みたいと考えています。BigQuery API を直接使用している場合、パフォーマンスの問題はありますか? アプリケーションは AWS で実行されています。