python - HTMLコンテンツ用のPythonフィルター

Question

コンテンツを取得するには、IP アドレスを使用する必要があります。たとえば、IP アドレス = 157.123.22.11 組織の値を取得する必要があります。

<td>

  Zenith Data Systems</td>

 </tr>

 <tr class="odd">

<th>Organization:</th>

   <td>

      Zenith Data Systems</td>

  </tr>

 </table>

私は urllib2 を使用して html コンテンツを取得しています。

 import urllib2
 import lxml.html as lh

 req = urllib2.Request("http://www.ip-adress.com/ip_tracer/157.123.22.11", headers={'User-Agent' : "Magic Browser"})
 html = urllib2.urlopen(req).read()
 doc=lh.fromstring(html)
 print ''.join(doc.xpath('.//*[@class="odd"]')[-1].text_content().split())

しかし、lh ImportError: No module named lxml.html として import lxml.html が表示されます。それで、組織名をウェブサイトに出力し、lxmlのインストールなどの新しいインストールなしでウェブサイトのコンテンツを直接取得するソリューションを教えてください。私のPythonは2.4.3バージョンです

score 1 · Accepted Answer

lxml は標準ライブラリではないため、インストールする必要があります。

pip経由でlxmlをインストールする方が良いです：

pip install lxml

score 0 · Accepted Answer

HTMLParser.HTMLParser を継承するクラスを作成する必要があります。また、文字列 HTML を解析するには、handle_starttag、handle_endtag、および handle_data メソッドを実装する必要があります。

詳細については、Python ドキュメントを確認してください: HTMLParser クラス

python - HTMLコンテンツ用のPythonフィルター

2 に答える 2

Related

Reference