私はHadoopとPigの両方に非常に慣れていません。私はいくつかの単純なプログラムを実行できましたが、XML ファイルの一部の形式が正しくない場合に XML を処理するのが面倒でした。
XMLLoader('tag') を使用して、xml ファイルからすべてのタグを取得できます。ただし、1 つが欠落している場合、適切に形成されたクローズ タグ ピッグはその 1 つで停止します。例えば
<tag>
</tag>
<tag>
</tag1>
<tag>
</tag>
これは、最初の有効なタグのみを取得します。現在、私は JAQL の経験があり、エラー レコードを無視して、アプリケーションが 2 番目のタグを取得できるようになりました。
私の質問は、JAQL ではなく、Pig を使用して XML の不適切なフォーマットを処理する方法でしたか?