次のワークフローを作成したい:
1.GetTwitter プロセッサを使用してツイートをフェッチします。
MergeContent プロセスを使用して、ツイートをより大きなファイルにマージします。
マージされたファイルを HDFS に保存します。
- Hadoop/Hive 側では、これらのツイートに基づいて外部テーブルを作成したいと考えています。
これを行う方法の例がありますが、私が欠けているのは、MergeContent プロセッサを構成する方法です。ヘッダー、フッター、区切り記号として何を設定するかです。そして、マージされたツイートを行に分割するために、ハイブ側でセパレーターとして使用するもの。私が自分自身を明確に説明したことを願っています。
前もって感謝します。