python - キャッシュメモリからhtmlファイルにアクセスする

Question

私は次のことを行うpythonでコードを書いています：1）インターネットからhtmlファイルを取得します。2) その URL を抽出します。3) これらの URL を検索キーと比較し、ユーザーが開きたい正しい Web ページを開きます。私は次のコードを使用しています：

def open_page(name):

    try:
        links = lxml.html.parse('http://www.w3schools.com/html/').xpath("//a/@href")
        for url in links:
            if re.search(name, url):
                self.get_webpage.open('http://www.w3schools.com/html/'+url)
                break
    except IndexError as e:
        pass`

モジュールでこのメソッドを何度も呼び出す必要があるため、Web ページを開くプロセスが非常に遅くなります。このメソッドの各行の実行時間を調べてみたところ、lxml.html.parse() が最も多くの時間を消費していることがわかりました。また、ローカルシステムに保存されている html ファイルを使用しようとすると、この方法は迅速に機能します。初めてこの Web ページhttp://www.w3schools.com/html/の html ファイルをキャッシュから取得する方法はありますか? ps この html ファイルをローカルシステムに永続的に保存したくありません。その場合、この html ファイルの更新や変更を見逃す可能性があるからです。

score 0 · Accepted Answer

HTML をタイムスタンプとともに保存し、HTML が古すぎる場合にのみ HTML をダウンロードすることができます。

python - キャッシュメモリからhtmlファイルにアクセスする

2 に答える 2

Related

Reference