何千ものファイルを処理する必要があります。各ファイルは、連結された数千の XML ファイルで構成されています。
Hadoop を使用して各 XML ファイルを個別に分割したいと考えています。Hadoop を使用してこれを行う良い方法は何でしょうか?
注:私は完全な Hadoop 初心者です。Amazon EMR を使用する予定です。
何千ものファイルを処理する必要があります。各ファイルは、連結された数千の XML ファイルで構成されています。
Hadoop を使用して各 XML ファイルを個別に分割したいと考えています。Hadoop を使用してこれを行う良い方法は何でしょうか?
注:私は完全な Hadoop 初心者です。Amazon EMR を使用する予定です。
Mahout の XmlInputFormatを確認してください。これがコアディストリビューションではなく、Mahout にあるのは残念です。
連結された XML ファイルは、少なくとも同じ形式ですか? その場合は、各ファイルのルートにSTART_TAG_KEY
andを設定します。END_TAG_KEY
各ファイルはText
、map
. 次に、好みの Java XML パーサーを使用してジョブを完了できます。