クロスドメインの制限のためにこれがおそらく失敗していることを知っていることを指摘することから始めたいと思います-それを本当に確認したいだけです.
javascriptで開くウィンドウがあります。次に、Ajax リクエストを使用してサイトのコンテンツをプルし、それを新しいウィンドウにエコーします (ベースの href リンクを含めて、相対的に機能させるようにします)。
アイデアは、JS でレンダリングされた HTML をスクレイピングして、サイトが実際にバナーを実行しているかどうかを確認できることです (そうではないという疑いがあります!)。
私はこれでウィンドウを開きます:
msaScrape.msaWin = window.open ('null.php', 'msa_weed', "scrollbars=yes,toolbar=no,status=no,width=1000,height=1000");
これにより、新しいウィンドウにターゲット ページのコンテンツがロードされ、JS で起動されたものも正しくロードおよびレンダリングされます (バナーは少し後に表示されます)。
私は、msaScrape.msaWin.document.body、msaScrape.msaWin.document.body.innerHTML、および多くの他の組み合わせを試しましたが、完全にレンダリングされた HTML を返すものはありません。
Ajax リクエストからの raw バッファーでテストを実行すると、埋め込まれた文字列をうまく検出できますが、バナーは JS 経由で読み込まれるため、HTML でバナー ID を検索する前にそれらを DOM に読み込む必要があります。
私がやろうとしていることは可能ですか、それとも不可能なことをしようとしていますか? このポップアップ ウィンドウに書き込むことができ、生のレンダリングされていないバッファをスキャン (および一致を検出) できるのは奇妙だと思います。ポップアップ ページが HTML をレンダリングできるようにするとすぐに、それが落ちてソースを取得できなくなります。
必要に応じて、スクレイプ アンド マッチを行おうとしている (小さな) JS ビット全体を投稿できます。クライアントが私にそれをしても構わないかどうかを確認するだけです (プライベート クライアント用であり、彼らを動揺させたくないのです!)。