9

URLだけが与えられるサーバー側アプリケーションを使用して、レンダリングを終了し、スクリプトの実行を終了したページの現在のスタイル(おそらくインライン)でHTMLを取得する必要があります(Cookie、POST、邪魔なフォームなどの追加情報はありません)など)。

ブラウザ ライブラリを使用して、一時的に実行されているブラウザまたはスタンドアロン ユーティリティへのブリッジ/プロキシは、受け入れられているソリューションです (ただし、選択したブラウザまたはブラウザ ライブラリは、すべての主要なプラットフォームで利用可能である必要があり、OS GUI ビーイングなしで実行できる必要があります)。存在またはインストール済み)。

オプションの要件は、後ですべてのスクリプトを削除することです (このためのスタンドアロンのソリューションが既にあり、ここに追加します。これは、指定された回答がレンダリング中などにスクリプトを削除できる可能性があるためです)。

現在のスタイル (おそらくインライン) と現在の画像 ( data URIを使用) を使用して、現在の HTML ドキュメントの単一の .html ファイルで HTML+CSS のスナップショットを取得するにはどうすればよいですか?

純粋な PHP を使用して実行できる場合、それはプラスになります (私はそれを疑っていますが、興味深いものは何も見つかりませんでした)。

編集: HTTP リソースをロードして URL の HTML を取得する方法は知っていますが、それは私が探しているものではありません ;)

編集 2 入力 HTML の例:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">
<html>
    <head>
        <title></title>

        <meta http-equiv="Content-Type" content="text/html;charset=utf-8">

        <link rel="stylesheet" type="text/css" href="/css/example.css">
        <script type="text/javascript" src="/javascript/example.js"></script>

        <script type="text/javascript">
            window.addEventListener("load",
                function(event){
                    document.title="New title";

                    document.getElementById("pic_0").style.border="0px";
                }
            );
        </script>
        <style type="text/css">
            p{
                color: blue;
            }
        </style>
    </head>
    <body>
        <p>Hello world!</p>
        <p>
            <img 
                alt="" 
                style="border: 1px" 
                id="pic_0" 
                src="http://linuxgazette.net/144/misc/john/helloworld.png"
            >
        </p>
    </body>
</html>

出力例:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">
<html>
    <head>
        <title>New title</title>

        <meta http-equiv="Content-Type" content="text/html;charset=utf-8">

        <style type="text/css">
            b{font-weight: bold}
        </style>

        <style type="text/css">
            p{
                color: blue;
            }
        </style>
    </head>
    <body>
        <p>Hello world!</p>
        <p>
            <img 
                alt="" 
                style="border: 0px" 
                id="pic_0" 
                src=""
            >
        </p>
    </body>
</html>

<title>タグがどのように変更され、どのようにborder: 1pxなったか、画像 URL がどのようにデータ URIborder: 0pxに変換されたかに注意してください。

たとえば、これらの変換 (インライン CSS および<title>タグ) の一部は、Google Chrome インスペクターを使用してドキュメントを検査するときに確認できます。

編集 3 : 外部リソースをページ上のリソース (スタイルと画像) に置き換え、javascript を削除するのは簡単です。難しいのは、javascript を実行した後に CSS スタイルを計算することです。

編集 4たぶん、これは注入された JavaScript を使用して行うことができます (ただし、ブラウザ制御が必要です)。

4

1 に答える 1

6

PhantomJSは、JavaScript API を使用したヘッドレス (GUI レス) WebKit です。質問で要求したように、すべての主要なプラットフォームで実行されます。

Javascript スクリプトを実行して、GUI のない Web ブラウザーを制御できます。強力な API と、たくさんの例があります。

過去 2 ~ 3 日間の空き時間に、質問に対する解決策を書きました。すべての要件を美しくカバーしています。機能しない Web ページは見つかりませんでした。

.

使い方、コマンドライン:

phantomjs save_as_html.js http://stackoverflow.com/q/12215844/584490 saved.html

.

JavaScript はn、他のすべてがロードされた後、数秒間実行できます。JavaScript によって完全に生成された Web ページでも機能するはずです。

.

ノート:

  • 可能であれば、HTML5 のキャンバス レンダリングよりも XHR によるリソースの読み込みが優先されます。これは、ファイル サイズが縮小され、品質の低下が防止されるためです (元のファイルを再利用することが何よりも優れています)。

  • <link>および<img>タグはそのまま保持され、data:URI は URL の代わりにそれぞれ href および src 属性内で使用されます。同じことがbackground-image、すべての DOM ノードで getComputedStyle() を使用して読み取られる にも当てはまります。

  • <script>タグとイベント ハンドラー属性は削除されます。

  • <link>を含むタグrel="alternative"も削除されます (そうすべきではないかもしれませんが、相対 URL の場合は絶対 URL に固定する必要があります)。

  • <iframe>は現在処理されておらず、その src 属性は に設定されていabout:blankます。

.

すべてのリソースをロードできるように、すべてのクロス サイト スクリプティングのセキュリティ制限が解除されることに注意してください。Facebook アカウントの秘密の資格情報を使用している間は、悪意のある Web ページを保存しようとしないでください :)。

.

save_as_html.jsコンテンツ:

//http://stackoverflow.com/a/12256190/584490

var page = require('webpage').create();
page.onConsoleMessage = function (msg) { console.log(msg); };

var system = require('system');
var address, output, size;


if (system.args.length!=3)
{
    console.log('Usage: save_as_html.js URL filename');
    phantom.exit(1);
}
else
{
    address = system.args[1];
    output = system.args[2];

    page.viewportSize = {    
        width: 1680, 
        height: 1050,
    };

    //SECURITY_ERR: DOM Exception 18: An attempt was made to break through the security policy of the user agent.
    //Enable cross site scripting:
    page.settings.XSSAuditingEnabled=false;
    page.settings.localToRemoteUrlAccessEnabled=true;
    page.settings.webSecurityEnabled=false;

    page.settings.userAgent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1";
    page.settings.ignoreSslErrors=true;

    page.open(address, function (status){
        if (status!=='success')
        {
            console.log("Unable to load URL, returned status: "+status);
            phantom.exit(1);
        }
        else
        {
            window.setTimeout(function (){
                page.evaluate(function(){
                    var nodeList=document.getElementsByTagName("*");

                    var arrEventHandlerAttributes=[
                        "onblur", "onchange", "onclick", "ondblclick", "onfocus", "onkeydown", "onkeyup", "onkeypress", "onkeyup","onload",
                        "onmousedown", "onmousemove", "onmouseout", "onmouseover", "onmouseup", "onreset", "onselect", "onsubmit", "onunload"
                    ];


                    //http://stackoverflow.com/a/7372816/584490
                    var base64Encode=function(str)
                    {
                        var CHARS = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/";
                        var out = "", i = 0, len = str.length, c1, c2, c3;
                        while (i < len) {
                            c1 = str.charCodeAt(i++) & 0xff;
                            if (i == len) {
                                out += CHARS.charAt(c1 >> 2);
                                out += CHARS.charAt((c1 & 0x3) << 4);
                                out += "==";
                                break;
                            }
                            c2 = str.charCodeAt(i++);
                            if (i == len) {
                                out += CHARS.charAt(c1 >> 2);
                                out += CHARS.charAt(((c1 & 0x3) << 4) | ((c2 & 0xF0) >> 4));
                                out += CHARS.charAt((c2 & 0xF) << 2);
                                out += "=";
                                break;
                            }
                            c3 = str.charCodeAt(i++);
                            out += CHARS.charAt(c1 >> 2);
                            out += CHARS.charAt(((c1 & 0x3) << 4) | ((c2 & 0xF0) >> 4));
                            out += CHARS.charAt(((c2 & 0xF) << 2) | ((c3 & 0xC0) >> 6));
                            out += CHARS.charAt(c3 & 0x3F);
                        }
                        return out;
                    };


                    for(var n=nodeList.length-1; n>0; n--)
                    {
                        try
                        {
                            var el=nodeList[n];

                            if(el.nodeName=="IMG" && el.src.substr(0, 5)!="data:")
                            {
                                /*var canvas=document.createElement("canvas");

                                canvas.width=parseInt(el.width);
                                canvas.height=parseInt(el.height);

                                var ctx=canvas.getContext("2d");
                                ctx.drawImage(el, 0, 0);
                                el.src=canvas.toDataURL();*/

                                var xhr=new XMLHttpRequest();

                                xhr.open(
                                    "get",
                                    el.src,
                                    /*Asynchronous*/ false
                                );

                                xhr.overrideMimeType("text/plain; charset=x-user-defined");

                                xhr.send(null);

                                var strResponseContentType=xhr.getResponseHeader("Content-type").split(";")[0].replace(/[^a-z0-9\/-]/gi, "");
                                el.src="data:"+strResponseContentType+";base64,"+base64Encode(xhr.responseText);
                            }
                            else if(el.nodeName=="LINK")
                            {
                                if(el.rel=="alternate")
                                {
                                    el.parentNode.removeChild(el);
                                }
                                else if(el.href.substr(0, 5)!="data:")
                                {
                                    var xhr=new XMLHttpRequest();

                                    xhr.open(
                                        "get",
                                        el.href,
                                        /*Asynchronous*/ false
                                    );

                                    xhr.overrideMimeType("text/plain; charset=x-user-defined");

                                    xhr.send(null);

                                    //var strResponseContentType=xhr.getResponseHeader("Content-type").split(";")[0].replace(/[^a-z0-9\/-]/gi, "");
                                    //el.href="data:"+strResponseContentType+";base64,"+base64Encode(xhr.responseText);
                                    el.href="data:"+el.type+";base64,"+base64Encode(xhr.responseText);
                                }

                                continue;
                            }
                            else if(el.nodeName=="SCRIPT")
                            {
                                el.parentNode.removeChild(el);

                                continue;
                            }
                            else if(el.nodeName=="IFRAME")
                            {
                                el.src="about:blank";

                                continue;
                            }

                            for(var z=arrEventHandlerAttributes.length-1; z>=0; z--)
                                el.removeAttribute(arrEventHandlerAttributes[z]);

                            var strBackgroundImageURL=window.getComputedStyle(el).getPropertyValue("background-image").replace("/[\s]/g", "");
                            if(strBackgroundImageURL.substr(0, 4)=="url(" && strBackgroundImageURL.substr(4, 5)!="data:")
                            {
                                strBackgroundImageURL=strBackgroundImageURL.substr(4, strBackgroundImageURL.length-5);

                                /*var imageTemp=document.createElement("img");
                                imageTemp.src=strBackgroundImageURL;

                                imageTemp.onload=function(e){
                                    var canvas=document.createElement("canvas");

                                    canvas.width=parseInt(imageTemp.width);
                                    canvas.height=parseInt(imageTemp.height);

                                    var ctx=canvas.getContext("2d");
                                    ctx.drawImage(imageTemp, 0, 0);
                                    el.style.backgroundImage="url("+canvas.toDataURL()+")";
                                };

                                if (imageTemp.complete)
                                    imageTemp.onload();
                                */

                                var xhr=new XMLHttpRequest();

                                xhr.open(
                                    "get",
                                    strBackgroundImageURL,
                                    /*Asynchronous*/ false
                                );

                                xhr.overrideMimeType("text/plain; charset=x-user-defined");

                                xhr.send(null);

                                var strResponseContentType=xhr.getResponseHeader("Content-type").split(";")[0].replace(/[^a-z0-9\/-]/gi, "");
                                el.style.backgroundImage="url("+"data:"+strResponseContentType+";base64,"+base64Encode(xhr.responseText)+")";
                            }

                            if(el.nodeName=="A")
                            {
                                el.href="#";//TODO convert relative paths to absolute ones (keep URLs);
                                el.setAttribute("onclick", "return false;");//TODO: remove this when the above is fixed.
                            }
                            else if(el.nodeName=="FORM")
                            {
                                el.setAttribute("action", "");
                                el.setAttribute("onsubmit", "return false;");
                            }
                        }
                        catch(error)
                        {
                            //what can be done about it?
                        }
                    }
                });

                require("fs").write(output, page.content, "w");

                phantom.exit();
            }, 1000);
        }
    });
}

于 2012-09-04T02:52:36.330 に答える