xml - Hadoop での異種ドキュメント XML の処理

Question

Hadoop 1.1.1 を使用しています。私は XML ドキュメントを処理するので、XmlInputFormat既存のMAHOUTを使用します。とをSTART_TAG割り当てるEND_TAG必要があることは明らかです。この種のプロセスは、次の種類のデータ (同種)に適しています。

<lib>
    <book> ... </book>
    <book> ... </book>
    <book> ... </book>
    ...
</lib>

私が言ったことによると、私はとを割り当てSTART_TAG=<book>ますEND_TAG=</book>。ドキュメントまたはデータが以下の形式の場合 (異種* ):

文書 1:

<lib>
    <book> ... </book>
    <article> ... </article>
    <journal> ... </journal>
    <www> ... </www>
    ...
</lib>

およびドキュメント 2:

<Doc>
    <paper> ... </paper>
    <white_paper> ... </white_paper>
    <report> ... </report>
    <booklet> ... </booklet>
    ...
</Doc>

START_TAGとを割り当てるにはどうすればよいEND_TAGですか? この種のデータは Hadoop でどのように処理できますか?

どうもありがとう

score 0 · Accepted Answer

グローバルオントロジーを使用して、さまざまなドキュメントタイプで使用される開始タグと終了タグを動的に定義できます。異種システムを扱うときにグローバルなオントロジーを開発することは、それらのシステムが統合されるときに常に優先されるべきです。

xml - Hadoop での異種ドキュメント XML の処理

1 に答える 1

Related

Reference