問題タブ [data-ingestion]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Hadoop 取り込み中の Druid spatialDimensions 読み込みデータ エラー
- データの Hadoop 取り込みプロセスがあります ( https://druid.apache.org/docs/latest/ingestion/hadoop.htmlのように)
- 現在のドルイド インデクサーのバージョンは0.14.2-incubatingです
- データは GCS 上の TSV ファイルです。
以前は古いバージョンのドルイド インデクサーを使用していましたが、問題はありませんでした。新しいバージョンにアップグレードした後、エラーが発生しました。
いくつかの詳細
これが私の仕様の解析セクションです。
このセクションでは、次のようなエラーが発生します。
仕様パーサーが列間で次元を見つけようとしているのがわかりますが、それは空間次元です!
これは、生産に影響を与えるかなり痛い問題です。このエラーを修正する方法はありますか?
sqoop - Avro をデータ ファイルとして Sqoop を使用してデータを段階的にロードする方法は?
以下のエラーを取得:
コマンド実行時:
apache-nifi - 現在の日付よりも古いファイルの新しい hdfs フォルダーにファイルを移動する Apache Nifi
Tealium イベント ストリームを介して受信した Json ファイルに Consume Kafka を使用して、データを HDFS に消費するエンド ツー エンド フローを作成しています。
現在、私は使用しています
要件は、1 日スプール全体の JSON データを、postdate 属性を参照する単一のファイルに読み取り (エポックからYYYYMMDDSS
タイムスタンプの前に変換)、毎日データを読み取って単一の出力ファイルにマージし、最後に POST_DATE フィールドに関連するタイムスタンプに従ってファイルの名前を変更することです。毎日のファイルを区別する。
現在の日付の出力フォルダーには、現在の日付処理ファイルのみが含まれている必要があり、以前の日付のすべての完成した出力ファイルは別のフォルダーに移動する必要があります。
MoveHDFS で作業して hdfs フォルダーを再帰的に検索し、現在の日付と等しくない完了した出力ファイルを移動して別のフォルダーに移動する方法を教えてください。