問題タブ [data-ingestion]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1143 参照

apache-kafka - 0 または 0.0 をヌル値として格納するドルイド

HDP-2.6.5.0 からのバージョン druid .10.1 druid-kafka インデクサー サービスの取り込みを使用して、データを kafka トピックから druid にロードしています。この間に、druid が 0 または 0.0 のメトリック値を格納していることがわかりました。 nullとして、スーパーセットまたはDruid APIを介して取得中にnullとして応答を取得します。ここで何か不足している場合は、アドバイスが必要です。

スーパーセットからのエラー:

{"status": "failed", "error_type": "warning", "error": "unsupported operand type(s) for +: 'int' and 'NoneType'"}

以下の取り込み仕様ファイル:

druid の REST API を使用: http://host:port/druid/v2?pretty

体:

ドルイドからの応答:

カフカのデータ:

0 投票する
3 に答える
668 参照

scala - Sparkでデータフレームにロードするときにフィールドをトリミングする方法は?

最近、取り込み対象のファイルを受け取りました。ファイルは PSV 形式ですが、すべてのフィールドの左右に余分な文字 $~$ が埋め込まれているため、PSV 全体は次のようになります。

$~$Field1$~$|$~$Field2$~$|$~$Field3$~$

$~$Data1$~$|$~$Data2$~$|$~$Data3$~$

$~$Data4$~$|$~$Data5$~$|$~$Data6$~$

$~$Data7$~$|$~$Data8$~$|$~$Data9$~$

$~$Data10$~$|$~$Data11$~$|$~$Data12$~$ .....

ファイルには 1 億行あります。

これらのパディングをトリミングして標準の PSV にする最良の方法は何でしょうか?

どうもありがとうございました。ここで提案/共有を歓迎します。

アップデート:

データは SFTP から受信され、IT データ サポート (Unix 管理者) によって Hadoop にアップロードされます。Hadoop クラスターにしかアクセスできませんが、データ サポートにとって簡単な仕事であれば、前処理を行うように説得できるかもしれません。ありがとう。