0

wikia ダンプから xml を解析して子要素を取り出し、[[ と ]] で識別されるテキスト内のリンクを探しています。したがって、次の 1 つの wiki からのサンプル スニペットから取得する必要があります。

<mediawiki xmlns="http://www.mediawiki.org/xml/export-0.6/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.mediawiki.org/xml/export-0.6/ http://www.mediawiki.org/xml/export-0.6.xsd" version="0.6" xml:lang="en">
  <siteinfo>
    <sitename>Wookieepedia</sitename>
    <base>http:///10.8.66.74/wiki/Main_Page</base>
    <generator>MediaWiki 1.19.24</generator>
    <case>first-letter</case>
    <namespaces>
      <namespace key="-2" case="first-letter">Media</namespace>
...
      <namespace key="1202" case="first-letter">Message Wall Greeting</namespace>
    </namespaces>
  </siteinfo>
  <page>
    <title>Brianna</title>
    <ns>0</ns>
    <id>5</id>
...
    <text xml:space="preserve" bytes="36038">{{Eras|old|featured}}
{{Youmay|the [[Echani]] [[hybrid]]|the [[Brianna (Human)|Human]]}}
{{Character
|type=Jedi
...

上記により、Brianna ページが Echani ページ、および「ハイブリッド」ページと「Brianna (Human)」ページにリンクしていることが識別されます。

これを吐き出すことができるPython用の優れたmediawiki解析ツールはありますか? これはオフラインで行われ、これらの Wiki はそれほど大きくないため、パフォーマンスは大きな問題ではありません。

4

1 に答える 1