問題タブ [data-ingestion]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

186 問題

0 投票する

1 に答える

444 参照

postgresql - フラットファイルから GPFdist を挿入すると、挿入時に「"UTF8" をエンコードするための無効なバイトシーケンス: 0x00」というエラーがスローされる

大きなフラットファイルからデータを取り込むために書いているプロセスで問題に直面しています。次のように、UTF8仕様のpythonラッパーを使用してフラットファイルを前処理しています。 wrFile = io.open("outFile","w+",encoding='utf8')

次を使用して、ソースファイルを1行ずつ読み取っています。 lineACT = linecache.getline("inFile", i+j) lineNxt = linecache.getline("inFile", i+j+1)

さらに、行を前処理した後、次のようにファイルを書き込んでいます wrFile.write(lineACT) 。

postgresqlこれで、次のクエリを使用してファイルを外部テーブルに取り込む準備が整いました。ローダーアプリケーションが記述されJava、プロパティファイルを使用してすべての構成が渡されます。

ボックスでこれを実行するとUNIX、例外がスローされます。

注: outFile の各行は 1655 文字です。outTableとdeltaTableの両方の列構造も 1655 です。errorTable にチェックインすると、errmsg列に次のように表示されます。

今、私がチェックしたデータベースのエンコーディングプロパティが原因で、データベースがファイル内のnull文字を受け入れていないと推測しています'0x00''UTF8'

次のbashコマンドを使用して、ファイルからヌル文字を削除しようとしました:

しかし、今まで何も機能していません。誰かがこれを機能させる方法について何か提案をしてもらえますか?

前もって感謝します！

2017-08-24T16:01:02.090

0 投票する

1 に答える

641 参照

elasticsearch - 取り込みアタッチメントelasticsearchプラグインのbase64保存を無効にする方法は?

ドキュメントには、ingest-attachment プラグインを介して base64 ドキュメントを Elasticsearch に保存する方法の例が示されています。しかし、この後、elasticsearch インデックスに解析済みテキストと base64 フィールドソースが含まれていることがわかりました。なぜそれが必要なのですか？base64 テキストフィールドを削除し、コンテンツではなくドキュメントにインデックスを付けた後、テキストのみを保持する方法はありますか?

elasticsearch indexing full-text-search full-text-indexing data-ingestion

2017-09-28T09:22:35.397

0 投票する

0 に答える

128 参照

mysql - sqoopを使用してmysqlからhdfsに暗号化された列データをインポートする方法は?

mysql で暗号化された学生 ID を含むテーブルがあるとします。sqoop を使用してそのデータを hdfs にインポートするにはどうすればよいですか?

mysql hdfs sqoop data-ingestion

2017-10-20T11:20:03.010

0 投票する

1 に答える

120 参照

java - Java アプリケーションから BigQuery にデータを取り込む方法

Java アプリケーションから BigQuery にデータを取り込みたいと考えています。BigQuery API を直接使用している場合、パフォーマンスの問題はありますか? アプリケーションは AWS で実行されています。

java google-bigquery data-ingestion

2017-12-11T17:51:31.697

1 2 3 4 5 6 7 8 9 10

問題タブ [data-ingestion]

postgresql - フラット ファイルから GPFdist を挿入すると、挿入時に「"UTF8" をエンコードするための無効なバイト シーケンス: 0x00」というエラーがスローされる

elasticsearch - 取り込みアタッチメントelasticsearchプラグインのbase64保存を無効にする方法は?

mysql - sqoopを使用してmysqlからhdfsに暗号化された列データをインポートする方法は?

java - Java アプリケーションから BigQuery にデータを取り込む方法

Reference

postgresql - フラットファイルから GPFdist を挿入すると、挿入時に「"UTF8" をエンコードするための無効なバイトシーケンス: 0x00」というエラーがスローされる