現在、さまざまな正規表現を使用して、mediawikiマークアップのデータをリスト/辞書に「解析」し、記事内の要素を使用できるようにしています。
作成しなければならないケースの数が多いため、これは最善の方法とは言えません。
記事のmediawikiマークアップをさまざまなPythonオブジェクトに解析して、その中のデータを使用できるようにするにはどうすればよいでしょうか。
例:
- すべての見出しを辞書に抽出し、そのセクションでハッシュします。
- すべてのインターウィキリンクを取得し、それらをリストに貼り付けます(これは、APIから実行できることはわかっていますが
、帯域幅の使用を減らすため
にAPI呼び出しを1つだけにしたいです)。 - すべての画像名を抽出し、それらをセクションでハッシュします
さまざまな正規表現で上記を実現できますが、作成する必要のある数をかなり多くしています。
これがmediawikiの非公式仕様です(私は彼らの公式仕様が有用だとは思いません)。