私はこの質問に答えようとかなり見回しましたが、役に立ちませんでした。特定のページを処理するためにウィキメディアのページ ダンプを解析しています (はい、ウィキメディアのページ ダンプを解析するツールがいくつかあることは知っていますが、私のパーサーと同様に機能しません)。
質問は簡単です。セクションの開始を検出する方法を知っています (例: "==External References==")。簡単だ。明確に定義されていないのは、セクションの終了を検出する方法です。たとえば、ほとんどのセクションでは、次のセクション ヘッダーの開始までスキャンできますが、これは信頼できません。セクションに関する wikimedia のヘルプ ページを見ましたが、セクションの終わりを検出する方法が記載されていません。