1

Wikia ページからダウンロードした情報を含む文字列があります。

そのコンテンツを解析するために、ページからすべての Wiki フォーマットを取り除き、生のテキストだけを残すにはどうすればよいでしょうか?

次に、発生する可能性のある例を示します。

#REDIRECT[[Blah]]

{{
I have some stuff in here
}}
[[I also have some stuff in here|and here]]
[[http://blehthisisfake.com Link to a fake website]]

<span class="plainlinks">This is quite useless. Why was [[this page]] even created?</span>

<nowiki>There are more HTML tags, they should probably all be stripped...</nowiki>

There is random text in here. bleh bleh bleh

I'm not sure what single [brackets] do, but they should be stripped too...

期待される出力:

ここにランダムなテキストがあります。ブレブレブレ

シングルが何をするのかはわかりませんが、それらも削除する必要があります...

これを行うことができるモジュールはありますか?

4

1 に答える 1

3

「python wiki parser」を Google で検索すると、このコードが表示され、タグが削除されて置き換えられます (詳細については、リンク内のソース コードを参照してください)。

于 2012-06-16T04:44:47.513 に答える