ウィキペディア ダンプからウィキペディア インフォボックスを抽出し、タグを Java のキーと値のペアとして含む xml ファイルを準備することを楽しみにしています。
正規表現とスタックを使用してインフォボックスを正常に抽出しました。ただし、コンテンツにはウィキペディアのマークアップが含まれています。ウィキペディアをきれいなテキストにフォーマットし、キーと値のペアとして保存する方法を教えてください。明らかに、すべてのマークアップの削除をコーディングするのは、Java 用の外部 API を探して、膨大な作業です。