Hadoop 1.1.1 を使用しています。私は XML ドキュメントを処理するので、XmlInputFormat
既存のMAHOUTを使用します。と をSTART_TAG
割り当てるEND_TAG
必要があることは明らかです。この種のプロセスは、次の種類のデータ (同種)に適しています。
<lib>
<book> ... </book>
<book> ... </book>
<book> ... </book>
...
</lib>
私が言ったことによると、私は と を割り当てSTART_TAG=<book>
ますEND_TAG=</book>
。ドキュメントまたはデータが以下の形式の場合 (異種* ):
文書 1:
<lib>
<book> ... </book>
<article> ... </article>
<journal> ... </journal>
<www> ... </www>
...
</lib>
およびドキュメント 2:
<Doc>
<paper> ... </paper>
<white_paper> ... </white_paper>
<report> ... </report>
<booklet> ... </booklet>
...
</Doc>
START_TAG
と を割り当てるにはどうすればよいEND_TAG
ですか? この種のデータは Hadoop でどのように処理できますか?
どうもありがとう