python - Python の文字列から Wiki マークアップを削除する

Question

Wikia ページからダウンロードした情報を含む文字列があります。

そのコンテンツを解析するために、ページからすべての Wiki フォーマットを取り除き、生のテキストだけを残すにはどうすればよいでしょうか?

次に、発生する可能性のある例を示します。

#REDIRECT[[Blah]]

{{
I have some stuff in here
}}
[[I also have some stuff in here|and here]]
[[http://blehthisisfake.com Link to a fake website]]

&lt;span class="plainlinks"&gt;This is quite useless. Why was [[this page]] even created?&lt;/span&gt;

&lt;nowiki&gt;There are more HTML tags, they should probably all be stripped...&lt;/nowiki&gt;

There is random text in here. bleh bleh bleh

I'm not sure what single [brackets] do, but they should be stripped too...

期待される出力:

ここにランダムなテキストがあります。ブレブレブレ

シングルが何をするのかはわかりませんが、それらも削除する必要があります...

これを行うことができるモジュールはありますか？

score 3 · Accepted Answer

「python wiki parser」を Google で検索すると、このコードが表示され、タグが削除されて置き換えられます (詳細については、リンク内のソースコードを参照してください)。

python - Python の文字列から Wiki マークアップを削除する

1 に答える 1

Related

Reference