python - ヘッダータグ名で検索してヘッダータグの内容を取得する

Question

ページをスクレイピングしていますが、この形式から従業員数を取得する必要があります。

<h5>Number of Employees</h5>
<p>
            20
</p>

数字「20」を取得する必要があります。問題は、この数字が常に同じヘッダーにあるとは限らず、「h4」にあることもあり、さらに「h5」ヘッダーがあることです。含まれているデータを見つける必要があります。「従業員数」という名前のヘッダーで、含まれている段落にある数を抽出します

ページのリンクです

http://www.bbb.org/chicago/business-reviews/paving-contractors/lester-s-material-service-inc-in-grayslake-il-72000434/

score 1 · Accepted Answer

最も簡単な方法は、"Number of Employees" テキストを含む要素を見つけて、その段落が常に直後に続くと仮定して、その直後の段落を取得することです。

これを行い、数字を出力する手っ取り早いコードを次に示します。

parent = soup.find("div", id='business-additional-info-text')
for child in parent.children:
    if("Number of Employees" in child):
        print(child.findNext('p').contents[0].strip())

python - ヘッダータグ名で検索してヘッダータグの内容を取得する

2 に答える 2

Related

Reference