0

ページをスクレイピングしていますが、この形式から従業員数を取得する必要があります。

<h5>Number of Employees</h5>
<p>
            20
</p>

数字「20」を取得する必要があります。問題は、この数字が常に同じヘッダーにあるとは限らず、「h​​4」にあることもあり、さらに「h5」ヘッダーがあることです。含まれているデータを見つける必要があります。 「従業員数」という名前のヘッダーで、含まれている段落にある数を抽出します

ページのリンクです

http://www.bbb.org/chicago/business-reviews/paving-contractors/lester-s-material-service-inc-in-grayslake-il-72000434/

4

2 に答える 2

1

最も簡単な方法は、"Number of Employees" テキストを含む要素を見つけて、その段落が常に直後に続くと仮定して、その直後の段落を取得することです。

これを行い、数字を出力する手っ取り早いコードを次に示します。

parent = soup.find("div", id='business-additional-info-text')
for child in parent.children:
    if("Number of Employees" in child):
        print(child.findNext('p').contents[0].strip())
于 2015-11-29T23:37:40.240 に答える