Wikia ページからダウンロードした情報を含む文字列があります。
そのコンテンツを解析するために、ページからすべての Wiki フォーマットを取り除き、生のテキストだけを残すにはどうすればよいでしょうか?
次に、発生する可能性のある例を示します。
#REDIRECT[[Blah]]
{{
I have some stuff in here
}}
[[I also have some stuff in here|and here]]
[[http://blehthisisfake.com Link to a fake website]]
<span class="plainlinks">This is quite useless. Why was [[this page]] even created?</span>
<nowiki>There are more HTML tags, they should probably all be stripped...</nowiki>
There is random text in here. bleh bleh bleh
I'm not sure what single [brackets] do, but they should be stripped too...
期待される出力:
ここにランダムなテキストがあります。ブレブレブレ シングルが何をするのかはわかりませんが、それらも削除する必要があります...
これを行うことができるモジュールはありますか?