python - HREF 値は、BS4 を使用して Web ページを検索します

Question

私は、Webページのソースコンテンツのビューを読み取ったサードパーティアプリケーションに取り組んでいます。そこから、のhrefようなパターンを持ついくつかのコンテンツ値のみを収集する必要があります/aems/file/filegetrevision.do?fileEntityId。出来ますか？私のすべてのhref価値を与えてくれるもの。

HTML * (HTML の一部) *

<td width="50%">
<a href="/aems/file/filegetrevision.do?fileEntityId=10597525&cs=9b7sjueBiWLBEMj2ZU4I6fyQoPv-g0NLY9ETqP0gWk4.xyz">
screenshot.doc
</a>
</td>

コード

for a in soup.find_all('a', {"style": "display:inline; position:relative;"}, href=True):
    href = a['href'].strip()
    href = "https://xyz.test.com/" + href
print(href)

ありがとう

ありがとう、

score 2 · Accepted Answer

ええ、href属性に適切なフィルターを使用してください。お気に入り

def filter(href):
    return '/aems/file/filegetrevision' in href

soup.find_all('a', href=filter)

RegexObject関数の他に、オブジェクトをフィルターとして使用することもできます。

filter = re.compile(some_regular_expression)
soup.find_all('a', href=filter)

ドキュメントを参照してください:フィルターの種類

python - HREF 値は、BS4 を使用して Web ページを検索します

1 に答える 1

Related

Reference