私は次のことを行うpythonでコードを書いています:1)インターネットからhtmlファイルを取得します。2) その URL を抽出します。3) これらの URL を検索キーと比較し、ユーザーが開きたい正しい Web ページを開きます。私は次のコードを使用しています:
def open_page(name):
try:
links = lxml.html.parse('http://www.w3schools.com/html/').xpath("//a/@href")
for url in links:
if re.search(name, url):
self.get_webpage.open('http://www.w3schools.com/html/'+url)
break
except IndexError as e:
pass`
モジュールでこのメソッドを何度も呼び出す必要があるため、Web ページを開くプロセスが非常に遅くなります。このメソッドの各行の実行時間を調べてみたところ、lxml.html.parse() が最も多くの時間を消費していることがわかりました。また、ローカル システムに保存されている html ファイルを使用しようとすると、この方法は迅速に機能します。初めてこの Web ページhttp://www.w3schools.com/html/の html ファイルをキャッシュから取得する方法はありますか? ps この html ファイルをローカル システムに永続的に保存したくありません。その場合、この html ファイルの更新や変更を見逃す可能性があるからです。