8

特定のWebページ用のWebスクレイパーを作成しており、「urllib2.Request(MyURL)」と「BeautifulSoup」を使用してこれを行っていますが、問題は、MyURLのページにページングがあり、次のページが(同じmyURLに)読み込まれることです。 / page)リンクをクリックすると、このリンクの後ろに次のように記述されたjavascriptメソッドがあります。

{ javascript:__doPostBack('rptPagingBottom$ctl01$btnPage','') }.

PythonからこのJavascript関数を実行しないと、完全なページリストを取得できません。PythonからこのJavascriptメソッドを呼び出して、そのWebページのすべてのページを取得するにはどうすればよいですか?

ここで、使用が提案されている1つの関連する質問(Rhino、V8、SeaMonkey)を見つけましたが、これはまったく得られませんでした。可能であれば、サンプルコードが必要です。

4

1 に答える 1

2

この種の汚い作業(インラインjs、ajaxページの読み込み)にはSeleniumを試してください。これは、ブラウザーがpythonとbrowser-driverで実行できることを正確にエミュレートすることができます。

あなたはキーワード「セレンクローラー」でグーグルを検索することによってクローラーとしてそれを使用する方法についてのいくつかの情報を得ることができます。

于 2012-11-19T09:35:29.110 に答える