こんにちは、リンクを含むすべてのコンテンツを取得しようとしていhttp://services.runescape.com/m=news/recruit-a-friend-for-free-membership-and-xp
ますが、他のものは取得していません。私が現在行ったことは次のとおりです。
import urllib
url = "http://services.runescape.com/m=news/recruit-a-friend-for-free-membership-and-xp"
a = urllib.urlopen(url).read()
b = a.split("<div class=\"Content\">")[1]
c = b.split("</div>")[0]
print c
これは印刷されます:http://pastebin.com/WFXGpvRu
s を削除して(これは望ましくありません)、 ''に変更するreplace()
など、いくつかのものを削除するために多くの '' を実行してきました(これは2 つのアポストロフィです)。<p>
<b>
しかし、私が抱えている問題は疑問符です。アポストロフィがあるはずの場所に疑問符が表示されます。replace()
そこには疑問符があり、アポストロフィであってはならないので、単に a を行うことはできません。
私が行ったことすべてを行うためのより簡単な方法はありますか?