python - HTML をプルして完全に非相対化するスクリプト。(単一ファイルオフライン)

Question

Python を学習し、Web ユーティリティも作成しようとしています。私が達成しようとしているタスクの 1 つは、ローカルで実行できる単一の html ファイルを作成することですが、元の Web ページのように見えるために必要なすべてにリンクしています。(なぜこれが必要なのかを尋ねる場合、それは私が作成しているユーティリティの一部として機能する可能性があるため、またはそうでない場合は単に教育のためである可能性があるためです) 理論的な質問と実際的な質問の 2 つがあります。

1) これは、(機能的ではなく) 視覚的な目的で可能ですか? オンラインで必要なものすべてにリンクしながら、HTML ページをオフラインで使用できますか? または、HTMLファイル自体をWebサーバーで実行することについての基本的なことで、これが可能にならない場合は? 私はそれでどこまで行くことができますか？

2) HTML ページ上のリンクされた要素を非相対化する (それを作成する) python スクリプトを開始しましたが、私は初心者なので、外部リソースにもリンクするいくつかの要素または属性を見逃している可能性があります。いくつかのページを試してみたところ、以下のコードのページが正しく機能しないことに気付きました。正しくリンクされていない .js ファイルのようです。(これから起こる多くの問題の最初のもの) 私の最初の質問に対する答えが、少なくとも部分的に「はい」だったと仮定すると、この Web サイトのコードを修正するのを手伝ってくれる人はいますか?

ありがとうございました。

更新、これのスクリプトタグを見逃しましたが、追加した後でも正しく動作しません。

import lxml
import sys
from lxml import etree
from StringIO import StringIO
from lxml.html import fromstring, tostring
import urllib2
from urlparse import urljoin

site = "www.script-tutorials.com/advance-php-login-system-tutorial/"
output_filename = "output.html"

def download(site):
    response = urllib2.urlopen("http://"+site)
    html_input = response.read()
    return html_input

def derealitivise(site, html_input):

    active_html = lxml.html.fromstring(html_input)

    for element in tags_to_derealitivise:

        for tag in active_html.xpath(str(element+"[@"+"src"+"]")):
            tag.attrib["src"] = urljoin("http://"+site, tag.attrib.get("src"))

        for tag in active_html.xpath(str(element+"[@"+"href"+"]")):
            tag.attrib["href"] = urljoin("http://"+site, tag.attrib.get("href"))

    return lxml.html.tostring(active_html)

active_html = ""
tags_to_derealitivise = ("//img", "//a", "//link", "//embed", "//audio", "//video", "//script")

print "downloading..."
active_html = download(site)

active_html = derealitivise(site, active_html)

print "writing file..."

output_file = open (output_filename, "w")
output_file.write(active_html)
output_file.close()

さらに、すべての要素をチェックすることで、コードをより詳細にすることができました...

このように見えますが、すべての要素を反復処理する正確な方法はわかりません。これは別の問題であり、おそらく誰かが応答するまでにそれを理解するでしょう...:

def derealitivise(site, html_input):

active_html = lxml.html.fromstring(html_input)

for element in active_html.xpath:

    for tag in active_html.xpath(str(element+"[@"+"src"+"]")):
        tag.attrib["src"] = urljoin("http://"+site, tag.attrib.get("src"))

    for tag in active_html.xpath(str(element+"[@"+"href"+"]")):
        tag.attrib["href"] = urljoin("http://"+site, tag.attrib.get("href"))

return lxml.html.tostring(active_html)

アップデート

Burhan Khalid のソリューションのおかげで、一見実行するには単純すぎるように見えましたが、機能するようになりました。コードは非常に単純なので、ほとんどの人はそれを必要としないでしょうが、役立つ場合はとにかく投稿します:

import lxml
import sys
from lxml import etree
from StringIO import StringIO
from lxml.html import fromstring, tostring
import urllib2
from urlparse import urljoin

site = "www.script-tutorials.com/advance-php-login-system-tutorial/"
output_filename = "output.html"

def download(site):
    response = urllib2.urlopen(site)
    html_input = response.read()
    return html_input

def derealitivise(site, html_input):

    active_html = html_input.replace('<head>', '<head> <base href='+site+'>')

    return active_html
active_html = ""


print "downloading..."
active_html = download(site)

active_html = derealitivise(site, active_html)

print "writing file..."

output_file = open (output_filename, "w")
output_file.write(active_html)
output_file.close()

これらすべてと、非常に単純であるにもかかわらず、スクリプトにリストした Web サイトで実行されている .js オブジェクトは、まだ正しく読み込まれません。これを修正できるかどうかは誰にもわかりませんか？

score 0 · Accepted Answer

@Burhan はで<base href="...">タグを使用した簡単な答えを持っ<head>ており、あなたが見つけたように機能します。投稿したスクリプトを実行したところ、ページが正常にダウンロードされました。お気づきのとおり、JavaScript の一部が失敗するようになりました。これには複数の理由が考えられます。

HTML ファイルをローカルfile:///URL として開いている場合、ページが機能しない場合があります。多くのブラウザーは、ローカル HTML ファイルをサンドボックス化して、ネットワークリクエストを実行したり、ローカルファイルを調べたりすることを許可していません。

このページはXmlHTTPRequests、リモートサイトに対して、またはその他のネットワーク操作を実行できますが、クロスドメインスクリプトの理由により拒否されます。JS コンソールを見ると、投稿したスクリプトに対して次のエラーが表示されます。

XMLHttpRequest cannot load http://www.script-tutorials.com/menus.php?give=menu. Origin http://localhost:8000 is not allowed by Access-Control-Allow-Origin.

残念ながら、を制御できない場合、www.script-tutorials.comこれを回避する簡単な方法はありません。

python - HTML をプルして完全に非相対化するスクリプト。(単一ファイル オフライン)

2 に答える 2

Related

Reference

python - HTML をプルして完全に非相対化するスクリプト。(単一ファイルオフライン)