python - Python正規表現でhtmlをスクレイピングする

Question

Pythonの正規表現に問題があります。私にとって有益な情報を含む HTML ページがいくつかあります。ページが保存された時点で、encodig charset は一種の iso でした。Früchte と息子の "Fr%C3%BCchte" のように。HTML は構造が非常に悪いため、適切にスクレイピングする唯一の方法は正規表現を使用することです。

私はPythonでこの正規表現を持っています:

re.compile('<a\s+href="javascript.*?\(\'(\w+).*?\s.(\d+.+\d+).*?(.*)\'\)\">')

残念ながら、エンコードされた単語は部分的にしかフェッチされないため、実際には私が望むものではありません。結果は次のようになります。

[('showSubGroups', "160500', 'Fr%C3", '%BCchte in Alkohol'),
 ('showSubGroups', '160400', "', 'Rumtopf"),
 ('showSubGroups', '160300', "', 'Spirituosen (Bio)"),
 ('showSubGroups', '160200', "', 'Spirituosen zur Verarbeitung in der Confiserie"),
 ('showSubGroups', '160100', "', 'Spirituosen, allgemein")]

疲れているのかもしれませんが、エラーがどこにあるのかわかりません:

html を参照してください:

<td colspan="3" width="100%"><a href="javascript:sendForm('showSubGroups', '160500', 'Fr%C3%BCchte in Alkohol')">Früchte in Alkohol</a></td>
       </tr>
       <tr valign="top">
        <td colspan="3"><img src="NoName_Time_200843_93448%20-Dateien/pix.gif" height="5" width="1"></td>
       </tr>       <tr valign="top">
        <td colspan="3" width="100%"><a href="javascript:sendForm('showSubGroups', '160400', 'Rumtopf')">Rumtopf</a></td>
       </tr>
       <tr valign="top">
        <td colspan="3"><img src="NoName_Time_200843_93448%20-Dateien/pix.gif" height="5" width="1"></td>
       </tr>       <tr valign="top">
        <td colspan="3" width="100%"><a href="javascript:sendForm('showSubGroups', '160300', 'Spirituosen (Bio)')">Spirituosen (Bio)</a></td>
       </tr>
       <tr valign="top">
        <td colspan="3"><img src="NoName_Time_200843_93448%20-Dateien/pix.gif" height="5" width="1"></td>
       </tr>       <tr valign="top">
        <td colspan="3" width="100%"><a href="javascript:sendForm('showSubGroups', '160200', 'Spirituosen zur Verarbeitung in der Confiserie')">Spirituosen zur Verarbeitung in der Confiserie</a></td>
       </tr>
       <tr valign="top">
        <td colspan="3"><img src="NoName_Time_200843_93448%20-Dateien/pix.gif" height="5" width="1"></td>
       </tr>       <tr valign="top">
        <td colspan="3" width="100%"><a href="javascript:sendForm('showSubGroups', '160100', 'Spirituosen, allgemein')">Spirituosen, allgemein</a></td>
       </tr>
       <tr valign="top">
        <td colspan="3"><img src="NoName_Time_200843_93448%20-Dateien/pix.gif" height="5" width="1"></td>
       </tr>                </tbody></table>
            </td>
        </tr>

score 1 · Accepted Answer

これを試して：

f = re.compile("sendForm\((?:.*), (.*), (.*)\)")

テキストを入力として使用すると、次のようになります。

In [7]: f.findall(txt)
Out[7]:  [('160500', 'Fr%C3%BCchte in Alkohol'), ('160400', 'Rumtopf'), ('160300', 'Spirituosen (Bio)'), ('160200', 'Spirituosen zur Verarbeitung in der Confiserie'), ('160100', 'Spirituosen, allgemein')]

('ü' の) のデコードに関する限り%C3%BC、'%' を '\x' に置き換えるとデコードされるため、Latin 1 ブロックの UTF-8 に余分な '%' が追加されているように見えます。 :

In [39]: '\xC3\xBC'.decode('utf-8')
Out[39]: u'\xfc'

0x00FC は ü のユニコードです。

score 0 · Accepted Answer

Beautiful Soupは、html を解析するための優れたライブラリです。

html から href を抽出したら、正規表現を使用するのは非常に簡単です。

python - Python正規表現でhtmlをスクレイピングする

2 に答える 2

Related

Reference