0

URLhttp://judis.nic.in/supremecourt/chejudis.aspを押す必要があります。スクラップされるはずのページを取得するには、ここにフォームを送信してください。私はPhantomJSとPJScrapeを使用しています。問題は、フォームの送信後、結果が新しいウィンドウに表示されることです。phantomjsの問題リストをざっと調べたところ、windown.openを処理できないことがわかりました。ここで使用できる他の方法/フレームワークはありますか?ヘッドレススクレイピングに固執する必要があり、Seleniumなどを使用できません。

4

1 に答える 1

0

次のように、ページに javascript をモンキー パッチ window.open に挿入できます。

var log = {};
window.my_open = window.open;    
window.open=function (str1,str2,str3){
    console.log("** window.open ** " + str1 + " / " + str2 + " / " + str3);
    log.open = {"url":str1, "name":str2, "features":str3};
    var new_win =  this.my_open(str1, str2,str3);
    return new_win;
}

次に、PJS 内から URL にアクセスして、そこからスクレイピングを続けることができます。

PJS はそれを実装していないため、new_win は「未定義」になることに注意してください。

于 2012-08-14T14:01:14.690 に答える