Excel から Hadoop にデータをインポートまたは読み取る必要があるシナリオに遭遇した人はいますか? Flume Excel ソースのようなものはありますか?
ところで、Excelファイルをcsvに変換して処理できることは知っています。ここで実際に Flume ソースをもう少し詳しく調べようとしています。
スプーリング ディレクトリ ソースは、Excel ファイル (またはその他の形式) から読み取るように構成できます。ドキュメントに記載されているように、このソースはEventDeserializer (ファイルをイベントに解析するロジックを実装するクラス) で構成できます。
誰かがそのようなデシリアライザーを既に実装しているとは思いませんが、Apache POI ライブラリを使用すると非常に簡単な作業のようです。