python - 余分なタグを付けずに、Web サイトのリストからデータを抽出する

Question

作業コード: Python による Google 辞書検索と美しいスープ-> 実行して単語を入力するだけです。

特定のリスト項目から最初の定義を簡単に抽出しました。ただし、単純なデータを取得するには、データを改行で分割し、それをストリップして余分なリストタグを削除する必要がありました。

私の質問は、上記の文字列操作を行わずに特定のリストに含まれるデータを抽出する方法はありますか?おそらく、まだ見たことのない美しいスープの関数ですか?

これは、コードの関連セクションです。

# Retrieve HTML and parse with BeautifulSoup.
    doc = userAgentSwitcher().open(queryURL).read()
    soup = BeautifulSoup(doc)

# Extract the first list item -> and encode it.
    definition = soup('li', limit=2)[0].encode('utf-8')

# Format the return as word:definition removing superfluous data.
    print word + " : " + definition.split("<br />")[0].strip("<li>")

score 1 · Accepted Answer

findAll(text=True) を探していると思います。これにより、タグからテキストが抽出されます

definitions = soup('ul')[0].findAll(text=True)

タグ境界で分割されたすべてのテキストコンテンツの ist を返します

python - 余分なタグを付けずに、Web サイトのリストからデータを抽出する

1 に答える 1

Related

Reference