4

Mahout の XmlInputFormatに似たものがありますが、Flink 用ですか?

大きな XML ファイルがあり、特定の要素を抽出したいと考えています。私の場合、それはウィキペディアのダンプであり、すべての<page>タグを取得する必要があります。

つまり、ファイルがある場合

<mediawiki>
  <siteinfo>...</siteinfo>
  <page>...</page>
  <page>...</page>
  <page>...</page>
</mediawiki>

<page>...</page>マッパーで使用する3 つのレコードすべてを取得したいと考えています。理想的には、xpath クエリ/mediawiki/pageが返す有効な XML である必要があります。

4

1 に答える 1