イベント データを Parquet 形式 (HDFS など) で保存したいと考えています。対応するシンクのコードを変更する必要がありますか、またはそれを回避する方法はありますか? たとえば、Flume インターセプターを使用する..ありがとう。
1 に答える
1
一方では、HDFS への書き込み時に複数の出力形式をサポートするという目標を念頭に置いてコードを変更することについて、Cygnus に関する問題がありました。変更は完了しましたが、カスタム Json および CSV 形式のサポートのみがコーディングされました。これは、3 番目の形式を追加するためにコードを変更する準備ができていることを意味します。特定の Parquet のサポートに関する新しい問題を追加しましたOrionHDFSSink
。あなたが最終的に変更を行うことを決定した場合、私はあなたに問題を割り当てることができます:)
一方、ネイティブの HDFS シンク (通知されたすべての本文を保持する) をいつでも使用して、効率的にカスタム インターセプターをプログラムすることができます。
ご覧のとおり、どちらの場合も、Parquet 部分をコーディングする必要があります (または、実装する余地ができるまで待つ必要があります)。
于 2015-12-18T06:24:43.463 に答える