python - Python で HTML からリンクを抽出する

Question

基本的に、ユーザー入力の Web アドレスを受け取り、html を解析してリンクを見つけるプログラムを作成する必要があります。次に、すべてのリンクを別の HTML ファイルに特定の形式で保存します。私は組み込みのpythonモジュール（python 3）にしかアクセスできません。urllib.request を使用してリンクから HTML コードを取得し、それを文字列に入れることができます。この文字列からリンクを抽出して文字列配列に入れるにはどうすればよいでしょうか? また、リンク (画像リンク/mp3 リンクなど) を識別できるので、それらを異なる配列に入れることができます (その後、出力ファイルを作成するときにそれらを分類できます)。

score 1 · Accepted Answer

reモジュールを使用して、リンクの HTML テキストを解析できます。特に、findallメソッドはすべての一致を返すことができます。

URLに実際に拡張子（.mp3、.js、.jpegなど）が含まれているかどうかに応じて、ファイルタイプでソートする限り

次のような単純な for ループを実行できます。

import re
html = getHTMLText()
mp3s = []
other = []
for match in re.findall('<reexpression>',html):
    if match.endswith('.mp3'):
        mp3s.append(match)
    else:
        other.append(match)

score 1 · Accepted Answer

HTML.Parserライブラリまたはreライブラリを使用してみてください。それらはそれを行うのに役立ちます。正規表現を使用してそれを行うことができると思います

r'http[s]?://[^\s<>"]+|www.[^\s<>"]+

python - Python で HTML からリンクを抽出する

2 に答える 2

Related

Reference