Beautiful Soupで 2 つのことをしようとしています。
- 特定のクラスの div を見つけて出力する
- 特定のテキストを含むリンクを見つけて印刷する
最初の部分は機能しています。2 番目の部分は、空のリスト、つまり を返しています[]
。これをトラブルシューティングしようとして、意図したとおりに機能する次のものを作成しました。
from bs4 import BeautifulSoup
def my_funct():
content = "<div class=\"class1 class2\">some text</div> \
<a href='#' title='Text blah5454' onclick='blahblahblah'>Text blah5454</a>"
soup = BeautifulSoup(content)
thing1 = soup("div", "class1 class2")
thing2 = soup("a", text="Text")
print thing1
print thing2
my_funct()
SciTEエディターで (私の実際の実装の) 元のコンテンツのソースを見た後。ただし、1 つの違いは、リンク テキストのとの間の新しい行にLF
と 4があることです。たとえば、次のようになります。->
Text
blah5454
したがって、それが私が空になっている理由だと思います[]
。
私の質問は次のとおりです。
- これが考えられる原因ですか?
- もしそうなら、これらの文字を「剥ぎ取る」ための最善の解決策はありますか?もしそうなら、それを行う最善の方法は何ですか?