ディレクトリ構造からファイルをロードするために、カスタム ロード udf を pig で作成したいと考えています。
ディレクトリ構造は電子メールディレクトリのようなものです.maildir と呼ばれるルートディレクトリがあります.この中には個々のメール所有者のサブディレクトリがあります.すべてのメールアカウント所有者ディレクトリの中には,inbox,sent,trash などのいくつかのサブディレクトリがあります.
例: maildir/mailholdername1/inbox/1.txt maildir/mailholdername2/sent/1.txt
すべての mailerholdername サブディレクトリから受信トレイ ファイルのみを読み取りたい。
理解できません:
- load udf にパラメータとして渡す必要があるもの
- ディレクトリ構造全体をどのように解析し、それぞれの受信トレイ ファイルのみを読み取るか。
1つのファイルを処理し、データ抽出を実行して1つのレコードとしてロードしたい.したがって、10個のファイルがある場合、10個のレコードを持つリレーションを取得します.さらに、これらの受信ボックスファイルに対して何らかの操作を行い、いくつかのデータを抽出したい.