Mahout の XmlInputFormatに似たものがありますが、Flink 用ですか?
大きな XML ファイルがあり、特定の要素を抽出したいと考えています。私の場合、それはウィキペディアのダンプであり、すべての<page>
タグを取得する必要があります。
つまり、ファイルがある場合
<mediawiki>
<siteinfo>...</siteinfo>
<page>...</page>
<page>...</page>
<page>...</page>
</mediawiki>
<page>...</page>
マッパーで使用する3 つのレコードすべてを取得したいと考えています。理想的には、xpath クエリ/mediawiki/page
が返す有効な XML である必要があります。