Mahout の XmlInputFormatに似たものがありますが、Flink 用ですか?
大きな XML ファイルがあり、特定の要素を抽出したいと考えています。私の場合、それはウィキペディアのダンプであり、すべての<page>タグを取得する必要があります。
つまり、ファイルがある場合
<mediawiki>
<siteinfo>...</siteinfo>
<page>...</page>
<page>...</page>
<page>...</page>
</mediawiki>
<page>...</page>マッパーで使用する3 つのレコードすべてを取得したいと考えています。理想的には、xpath クエリ/mediawiki/pageが返す有効な XML である必要があります。