新しい Apache Pig ユーザーはこちら。私は基本的にフォーマットのデータを持っており、これを 6 列に分割して目的のスキーマを作成し、既存のスクリプトを実行するために Pig にロードする必要があります。
以下の形式が乱雑で申し訳ありません。評判スコアのために画像をアップロードできません。
既存のフォーマットには 3 つの列があります
User-Equipment 値::key:bytearray 値:値:bytearray
user1-mobile 20130306-AC 9
user1-mobile 20130306-AT 21
user2-laptop 20130306-BC 0
必要な形式:
ユーザー機器の日付タイプ「カウントまたは時間」値
user1 モバイル 20130306 AC 9
user1 モバイル 20130306 AT 21
これを行う方法について何か提案はありますか? 書く必要がある正規表現はありますか? ここで注意が必要なのは、「タイプ」と列「C または T」を除くすべての列に区切り記号 (-) があることです。