問題タブ [data-ingestion]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-kafka - 0 または 0.0 をヌル値として格納するドルイド
HDP-2.6.5.0 からのバージョン druid .10.1 druid-kafka インデクサー サービスの取り込みを使用して、データを kafka トピックから druid にロードしています。この間に、druid が 0 または 0.0 のメトリック値を格納していることがわかりました。 nullとして、スーパーセットまたはDruid APIを介して取得中にnullとして応答を取得します。ここで何か不足している場合は、アドバイスが必要です。
スーパーセットからのエラー:
{"status": "failed", "error_type": "warning", "error": "unsupported operand type(s) for +: 'int' and 'NoneType'"}
以下の取り込み仕様ファイル:
druid の REST API を使用: http://host:port/druid/v2?pretty
体:
ドルイドからの応答:
カフカのデータ:
scala - Sparkでデータフレームにロードするときにフィールドをトリミングする方法は?
最近、取り込み対象のファイルを受け取りました。ファイルは PSV 形式ですが、すべてのフィールドの左右に余分な文字 $~$ が埋め込まれているため、PSV 全体は次のようになります。
$~$Field1$~$|$~$Field2$~$|$~$Field3$~$
$~$Data1$~$|$~$Data2$~$|$~$Data3$~$
$~$Data4$~$|$~$Data5$~$|$~$Data6$~$
$~$Data7$~$|$~$Data8$~$|$~$Data9$~$
$~$Data10$~$|$~$Data11$~$|$~$Data12$~$ .....
ファイルには 1 億行あります。
これらのパディングをトリミングして標準の PSV にする最良の方法は何でしょうか?
どうもありがとうございました。ここで提案/共有を歓迎します。
アップデート:
データは SFTP から受信され、IT データ サポート (Unix 管理者) によって Hadoop にアップロードされます。Hadoop クラスターにしかアクセスできませんが、データ サポートにとって簡単な仕事であれば、前処理を行うように説得できるかもしれません。ありがとう。