Windmill を使用してページ (javascript を含む) を開き、html 全体をダウンロードする簡単なスクリプトを作成しようとしています。私のコードは次のとおりです。
from windmill.authoring import setup_module, WindmillTestClient
from windmill.conf import global_settings
import sys
global_settings.START_FIREFOX = True
setup_module(sys.modules[__name__])
def my_func():
url = "a certain url"
client = WindmillTestClient(__name__)
client.open(url=cur_url)
html = client.commands.getPageText()
getPageText() を使用したこの最後の行は、ハングしているようです。何も起こらず、二度と戻りません。
また、windmill は毎回 GUI 全体を開く必要がありますか? もしそうなら、私が終わったときにそれを閉じる関数がPythonにありますか(実際のドキュメントへのリンクは役に立ちます;私が見つけたのはいくつかの例です)?
編集:代わりにSeleniumを使用するだけで問題を解決しました.Windmillを機能させるのに約15分かかりました.3時間かかりました. 私の同僚が別の解決策を思いつきました。それは、実際にブラウザーに入ってくるネットワーク トラフィックを監視し、GET 要求をスクレイピングすることでした。彼がどのようにそれをしたかは完全にはわかりません。