python - lxml は Python で tr の一部を解析できます

Question

lmxl を使用して Web を解析すると、lxml-xpath がターゲットの一部を取得できます。コードを参照してください。

import urllib
import lxml.html
url="http://sc.hkex.com.hk/gb/www.hkex.com.hk/chi/market/sec_tradinfo/stockcode/eisdeqty_c.htm" 
file=urllib.urlopen(url).read() 
root=lxml.html.document_fromstring(file)
for company in root.xpath('//tr[@class="tr_normal"]'):
    print  company.text_content().encode('utf-8')  

>>>00325创生控股1,000#     
00326中国星集团50,000#     
00327百富环球1,000  
00328ALCO HOLDINGS2,000#     
00329  
>>>

2 つの問題があり
ます。
2.コードが 000329 より大きい会社情報を取得できないのはなぜですか?

ここに画像の説明を入力

score 1 · Accepted Answer

read()ページ全体を一度に読み取ることはありません。あなたはそれを繰り返す必要があります

ドキュメントから：

read（）メソッドは、size引数が省略されているか負の場合、データストリームの終わりまで読み取れない可能性があります。一般的なケースでは、ソケットからのストリーム全体が読み取られたことを確認する良い方法はありません。

python - lxml は Python で tr の一部を解析できます

1 に答える 1

Related

Reference