1

何千ものファイルを処理する必要があります。各ファイルは、連結された数千の XML ファイルで構成されています。

Hadoop を使用して各 XML ファイルを個別に分割したいと考えています。Hadoop を使用してこれを行う良い方法は何でしょうか?

注:私は完全な Hadoop 初心者です。Amazon EMR を使用する予定です。

4

1 に答える 1

3

Mahout の XmlInputFormatを確認してください。これがコアディストリビューションではなく、Mahout にあるのは残念です。

連結された XML ファイルは、少なくとも同じ形式ですか? その場合は、各ファイルのルートにSTART_TAG_KEYandを設定します。END_TAG_KEY各ファイルはTextmap. 次に、好みの Java XML パーサーを使用してジョブを完了できます。

于 2012-05-15T01:58:13.527 に答える