ページをスクレイピングしていますが、この形式から従業員数を取得する必要があります。
<h5>Number of Employees</h5>
<p>
20
</p>
数字「20」を取得する必要があります。問題は、この数字が常に同じヘッダーにあるとは限らず、「h4」にあることもあり、さらに「h5」ヘッダーがあることです。含まれているデータを見つける必要があります。 「従業員数」という名前のヘッダーで、含まれている段落にある数を抽出します
ページのリンクです
ページをスクレイピングしていますが、この形式から従業員数を取得する必要があります。
<h5>Number of Employees</h5>
<p>
20
</p>
数字「20」を取得する必要があります。問題は、この数字が常に同じヘッダーにあるとは限らず、「h4」にあることもあり、さらに「h5」ヘッダーがあることです。含まれているデータを見つける必要があります。 「従業員数」という名前のヘッダーで、含まれている段落にある数を抽出します
ページのリンクです
最も簡単な方法は、"Number of Employees" テキストを含む要素を見つけて、その段落が常に直後に続くと仮定して、その直後の段落を取得することです。
これを行い、数字を出力する手っ取り早いコードを次に示します。
parent = soup.find("div", id='business-additional-info-text')
for child in parent.children:
if("Number of Employees" in child):
print(child.findNext('p').contents[0].strip())