水平パターンのレコードを含むテキスト ファイルがあります。このファイルを PIG Latin を使用してリレーションにロードする方法を教えてください。
ファイルには患者 ID と患者名が含まれています。
ファイル内のデータ: 001 Rakesh 005 Samir 006 Daksh 010 Kapil 456 Sachin...etc
水平パターンのレコードを含むテキスト ファイルがあります。このファイルを PIG Latin を使用してリレーションにロードする方法を教えてください。
ファイルには患者 ID と患者名が含まれています。
ファイル内のデータ: 001 Rakesh 005 Samir 006 Daksh 010 Kapil 456 Sachin...etc
データを前処理するか、ファイルをロードして UDF を作成して分割することができます。
データを前処理したい場合は、Ruby や Python などの便利な言語でスクリプトを作成して作業を行うことをお勧めします。
Pythonについてはこちらをご覧ください
または、UDF を作成する場合は、Google Guava ライブラリを使用して行を分割し、タプルを使用してバグの出力を作成できます。
Google Guava の例については、こちらをご覧ください。
もちろん、これらの方法ではスケーラビリティの問題が発生する可能性があるため、注意が必要です。