hadoop - xml ファイルを分割する Hadoop ジョブ

Question

何千ものファイルを処理する必要があります。各ファイルは、連結された数千の XML ファイルで構成されています。

Hadoop を使用して各 XML ファイルを個別に分割したいと考えています。Hadoop を使用してこれを行う良い方法は何でしょうか?

注:私は完全な Hadoop 初心者です。Amazon EMR を使用する予定です。

score 3 · Accepted Answer

Mahout の XmlInputFormatを確認してください。これがコアディストリビューションではなく、Mahout にあるのは残念です。

連結された XML ファイルは、少なくとも同じ形式ですか? その場合は、各ファイルのルートにSTART_TAG_KEYandを設定します。END_TAG_KEY各ファイルはText、map. 次に、好みの Java XML パーサーを使用してジョブを完了できます。

1 に答える 1