1

ソケットに接続し、.read()を使用して応答をキャプチャした後、入力ストリームを解析して行を読み取るにはどうすればよいですか?

CRLFなしでデータが返されるのがわかります

<html><head><title>Apache Tomcat/6.0.16 - Error report</title><style><!--H1 {font-family:Tahoma,Arial,sans-serif;color:white;background-color:#525D76;font-size:22px;} H2 {font-family:Tahoma,Arial,sans-serif;color:white;background-color:#525D76;font-size:16px;} H3 {font-family:Tahoma,Arial,sans-serif;color:white;background-color:#525D76;font-size:14px;} BODY {font-family:Tahoma,Arial,sans-serif;color:black;background-color:white;} B {font-family:Tahoma,Arial,sans-serif;color:white;background-color:#525D76;} P {font-family:Tahoma,Arial,sans-serif;background:white;color:black;font-size:12px;}A {color : black;}A.name {color : black;}HR {color : #525D76;}--></style> </head><body><h1>HTTP Status 404 - /index.html</h1><HR size="1" noshade="noshade"><p><b>type</b> Status report</p><p><b>message</b> <u>/index.html</u></p><p><b>description</b> <u>The requested resource (/index.html) is not available.</u></p><HR size="1" noshade="noshade"><h3>Apache Tomcat/6.0.22</h3></body></html>
4

2 に答える 2

3

HTMLを解析する必要があります。Pythonには、HTMLを解析するいくつかの方法があります。そのうちの1つは、組み込みのHTMLParserモジュールです。もう1つの、おそらくより良い方法は、サードパーティのBeautifulSoupモジュールです。

HTML処理を扱う他の多くの問題は、この素晴らしい記事で説明されています。(無料のオンライン)DiveintoPythonの本の関連する章を読むこともできます。

于 2010-02-02T04:58:33.277 に答える
0

HTML パーサーを使用します。 美しいスープが人気のようです。

于 2010-02-02T04:16:26.783 に答える