0

Beautiful Soupで 2 つのことをしようとしています。

  1. 特定のクラスの div を見つけて出力する
  2. 特定のテキストを含むリンクを見つけて印刷する

最初の部分は機能しています。2 番目の部分は、空のリスト、つまり を返しています[]。これをトラブルシューティングしようとして、意図したとおりに機能する次のものを作成しました。

from bs4 import BeautifulSoup

def my_funct():
    content = "<div class=\"class1 class2\">some text</div> \
        <a href='#' title='Text blah5454' onclick='blahblahblah'>Text blah5454</a>"
    soup = BeautifulSoup(content)
    thing1 = soup("div", "class1 class2")
    thing2 = soup("a", text="Text")
    print thing1
    print thing2

my_funct()

SciTEエディターで (私の実際の実装の) 元のコンテンツのソースを見た後。ただし、1 つの違いは、リンク テキストのとの間の新しい行にLFと 4があることです。たとえば、次のようになります。->Textblah5454

ここに画像の説明を入力してください

したがって、それが私が空になっている理由だと思います[]

私の質問は次のとおりです。

  1. これが考えられる原因ですか?
  2. もしそうなら、これらの文字を「剥ぎ取る」ための最善の解決策はありますか?もしそうなら、それを行う最善の方法は何ですか?
4

1 に答える 1