問題タブ [data-ingestion]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

186 問題

0 投票する

1 に答える

1143 参照

apache-kafka - 0 または 0.0 をヌル値として格納するドルイド

HDP-2.6.5.0 からのバージョン druid .10.1 druid-kafka インデクサーサービスの取り込みを使用して、データを kafka トピックから druid にロードしています。この間に、druid が 0 または 0.0 のメトリック値を格納していることがわかりました。 nullとして、スーパーセットまたはDruid APIを介して取得中にnullとして応答を取得します。ここで何か不足している場合は、アドバイスが必要です。

スーパーセットからのエラー:

{"status": "failed", "error_type": "warning", "error": "unsupported operand type(s) for +: 'int' and 'NoneType'"}

以下の取り込み仕様ファイル:

druid の REST API を使用: http://host:port/druid/v2?pretty

体：

ドルイドからの応答:

カフカのデータ:

2019-02-07T13:56:52.090

0 投票する

3 に答える

668 参照

scala - Sparkでデータフレームにロードするときにフィールドをトリミングする方法は?

最近、取り込み対象のファイルを受け取りました。ファイルは PSV 形式ですが、すべてのフィールドの左右に余分な文字 $~$ が埋め込まれているため、PSV 全体は次のようになります。

$~$Field1$~$|$~$Field2$~$|$~$Field3$~$

$~$Data1$~$|$~$Data2$~$|$~$Data3$~$

$~$Data4$~$|$~$Data5$~$|$~$Data6$~$

$~$Data7$~$|$~$Data8$~$|$~$Data9$~$

$~$Data10$~$|$~$Data11$~$|$~$Data12$~$ .....

ファイルには 1 億行あります。

これらのパディングをトリミングして標準の PSV にする最良の方法は何でしょうか?

どうもありがとうございました。ここで提案/共有を歓迎します。

アップデート：

データは SFTP から受信され、IT データサポート (Unix 管理者) によって Hadoop にアップロードされます。Hadoop クラスターにしかアクセスできませんが、データサポートにとって簡単な仕事であれば、前処理を行うように説得できるかもしれません。ありがとう。

scala csv apache-spark data-ingestion

2019-02-08T02:42:51.153

1 2 3 4 5 6 7 8 9 10

問題タブ [data-ingestion]

apache-kafka - 0 または 0.0 をヌル値として格納するドルイド

scala - Sparkでデータフレームにロードするときにフィールドをトリミングする方法は?

Reference