python - HTML要素からCSSスタイル属性を抽出する簡単な方法

翻译自：https://stackoverflow.com/questions/18259413 2013-08-15T18:40:06.207

842 次

機械学習の目的で、すべての DOM 要素のすべてのスタイル属性を抽出するために、HTML ページを入力として使用しています。だから、ここに私の予備コードがあります：

from selenium import webdriver

start = time.time()
driver = webdriver.PhantomJS()
driver.get('example page')
elements = driver.find_elements(By.XPATH, "//*[not(child::*)]") #select only leaf nodes
l = {}
css_properties=("line-height", "text-align","font-size", "font-style")

for i in elements:
    if i.text:
        #print time.time() - end_dl
        if i.text not in l:
            l[i.text] = {}
        for el in css_properties:
            l[i.text][el] = str(i.value_of_css_property(el))
            l[i.text]["text_length"] = len(i.text)

問題は、このコードが機能を解析するのに時間がかかりすぎることです (~8 秒)。誰でもこれを行うためのより速い方法で考えることができますか?

python - HTML要素からCSSスタイル属性を抽出する簡単な方法

1 に答える 1

Related

Reference