python - 指定されたテキストのリンクを返す Beautiful Soup を妨害する文字を取り除く方法は?

Question

Beautiful Soupで 2 つのことをしようとしています。

特定のクラスの div を見つけて出力する
特定のテキストを含むリンクを見つけて印刷する

最初の部分は機能しています。2 番目の部分は、空のリスト、つまりを返しています[]。これをトラブルシューティングしようとして、意図したとおりに機能する次のものを作成しました。

from bs4 import BeautifulSoup

def my_funct():
    content = "<div class=\"class1 class2\">some text</div> \
        <a href='#' title='Text blah5454' onclick='blahblahblah'>Text blah5454</a>"
    soup = BeautifulSoup(content)
    thing1 = soup("div", "class1 class2")
    thing2 = soup("a", text="Text")
    print thing1
    print thing2

my_funct()

SciTEエディターで (私の実際の実装の) 元のコンテンツのソースを見た後。ただし、1 つの違いは、リンクテキストのとの間の新しい行にLFと 4があることです。たとえば、次のようになります。->Textblah5454

ここに画像の説明を入力してください

したがって、それが私が空になっている理由だと思います[]。

私の質問は次のとおりです。

これが考えられる原因ですか？
もしそうなら、これらの文字を「剥ぎ取る」ための最善の解決策はありますか?もしそうなら、それを行う最善の方法は何ですか?

python - 指定されたテキストのリンクを返す Beautiful Soup を妨害する文字を取り除く方法は?

1 に答える 1

Related

Reference