1

Hadoop 1.1.1 を使用しています。私は XML ドキュメントを処理するので、XmlInputFormat既存のMAHOUTを使用します。と をSTART_TAG割り当てるEND_TAG必要があることは明らかです。この種のプロセスは、次の種類のデータ (同種)に適しています。

<lib>
    <book> ... </book>
    <book> ... </book>
    <book> ... </book>
    ...
</lib>

私が言ったことによると、私は と を割り当てSTART_TAG=<book>ますEND_TAG=</book>。ドキュメントまたはデータが以下の形式の場合 (異種* ):

文書 1:

<lib>
    <book> ... </book>
    <article> ... </article>
    <journal> ... </journal>
    <www> ... </www>
    ...
</lib>

およびドキュメント 2:

<Doc>
    <paper> ... </paper>
    <white_paper> ... </white_paper>
    <report> ... </report>
    <booklet> ... </booklet>
    ...
</Doc>

START_TAGと を割り当てるにはどうすればよいEND_TAGですか? この種のデータは Hadoop でどのように処理できますか?

どうもありがとう

4

1 に答える 1

0

グローバル オントロジーを使用して、さまざまなドキュメント タイプで使用される開始タグと終了タグを動的に定義できます。異種システムを扱うときにグローバルなオントロジーを開発することは、それらのシステムが統合されるときに常に優先されるべきです。

于 2013-08-06T21:05:19.063 に答える