Kettle は初めてですが、今のところうまくいっています。しかし、これを行う方法がわかりません。
私はこのようなcsvを持っています
a, col1, col2, col3
a, col1, col2, col3
a, col1, col2, col3
b, col1, col2, col3
b, col1, col2, col3
c, col1, col2, col3
c, col1, col2, col3
最初の列はキー (a、b、c) で始まり、残りの列が続きます。私がやりたいのは、csv を読み込んで (カバーした)、キーに基づいて csv を分割することです。そのため、データの 3 つのチャンク/グループがあり、それらのデータの各チャンクを個別の json ファイルに変換します。取れると思います。
私が理解できないのは、データをグループ化し、それらの個別のグループごとに個別のアクション (json に変換) を実行することです。私が問題を抱えているjsonの作成ではありません。
データは多くの環境センサーのセンサー ネットワークからのものであるため、多くのキー、何百ものキーがあり、新しいキーが追加されます。配置が異なるため、ケトルの Hadoop 要素を使用せずに、ここで複製しようとしているのはパーティショニングの概念であるため、以前はこのデータを処理するために map reduce を使用しました。データを分割したら、別々のレコードとして別の場所にロードする必要があります。キーは、センサーの一意の ID (シリアル番号) です。
アイデアはありますか?
ありがとう