0

重複の可能性:
Javascriptが多いWebページからのスクリーンスクレイピング

フォーム入力やWebスクレイピングなどのタスクを実行したいだけですが、JavaScriptのサポートが必要なサイトで実行します。また、同じセッションでフォームやスクレイプなどを入力する必要があります。理想的には、コマンドラインからWebブラウザを制御する方法が必要です。また、これらすべてにLinuxのみを使用したいので、.NETは使用できません。

Python用のwebbrowserライブラリを見つけましたが、その機能は非常に制限されているように見えます。それがmechanizeとBeautifulSoupとインターフェースできるとしたら、それは素晴らしいことです。助言がありますか?ありがとう!

4

2 に答える 2

1

あなたは確かにMozillaでXULアプリケーションを書くことができます(Firefox、Xulrunnerなどでそれを実行してください)それはウェブブラウザをスクリプト化します。通常、このようなタスクにはJavascriptが使用されます。

私が見つけたのは、ブラウザが作成するすべての種類のダイアログボックスを抑制することです。ダイアログの種類ごとに呼び出されるXPCOMサーバークラスの動作を効果的にオーバーライドする必要があり、さまざまな種類があります。 1つ(たとえば、サイトが期限切れの証明書を使用してhttpsサイトにリダイレクトすることを決定した場合)。

もちろん、ロボットによる使用に関するサイトのポリシーに違反するために、このようなメカニズムを使用しないでください。通常、ロボットでフォームを送信しないでください。

于 2009-08-11T21:43:23.593 に答える