問題タブ [mechanize-python]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
javascript - Python mechanizeのjavascript関数によるCookieの設定をどのようにシミュレートしますか?
ログインページに進むにはクリックして確認する必要があるという警告が最初のページにあるWebサイトにログインしてステップスルーするためにpython mechanizeを使用しようとしています。リンクをクリックすると、Cookie を設定する JavaScript 関数がアクティブになり、ログイン ページに移動します。
警告のhtmlは
Cookie を設定する JavaScript は次のとおりです。
概略的には、私の python コードは次のようになります。
警告を読んでクリックしたように見えるようにするには、Cookie をどのように設定すればよいですか?
python - Python 機械化モジュール: デフォルトのドキュメントは完全ではありません
Python Mechanize モジュールを使用して、フォームをトラバースし、コントロール、コンテンツなどを表示しています。このドキュメントは不完全であるため、すべてのメソッドの詳細を共有できる人はいますか?
また、フォームの submit() メソッドと click() メソッドの違いを理解できません。それについてもコメントしてください。
python - Mechanize を使用して Google の検索結果から画像を取得する方法
Google の画像検索結果の HTML を解析して、画像の元のリンクを取得しようとしていました。
これまでのところ、Python の Mechanize と BeautifulSoup を使用して、Google の検索の HTML を取得する Python コードを作成することに成功しました。
Google の検索結果の HTML ソースを見ると、Google が元の画像の URL の二重エンコードを class の div に保存していることがわかりましたrg_meta
が、Mechanize から受け取った HTML にはそのようなクラスは含まれていません。実際、新しい Web ページ全体が Mechanize を介して返されています。
Google の画像検索 API は知っていますが、この方法で HTML を解析する必要があります。私は何を間違っていますか?Mechanize を Chrome または別のブラウザーとしてマスクできますか?
これは私が試していたことのスニペットです。それは何も返していません:
python - python-mechanizeを介して完全にロードされたhtmlを取得するにはどうすればよいですか?
こんにちは、python mechanize を使用して Web ページからデータを取得しています。検索結果の画像をダウンロードするために、Google画像検索Webページからimgurlを取得しようとしています。
これが私のコードです。検索フォームに「犬」と入力して送信します。(「犬」で検索)
Chrome ブラウザからページソースを見ると、ページソースに「imgurl」があります。しかし、python mechanize からデータを読み取ると、そのようなことはありません。また、1.html(私がpythonで書いたもの)のサイズは、chromeからダウンロードしたhtmlファイルよりもはるかに小さいです。Pythonを使用してWebブラウザとまったく同じhtmlデータを取得するにはどうすればよいですか?
Web ブラウザーと同じように要求ヘッダーを設定する必要がありますか? ありがとう
python - python-mechanizeでタイムアウトを設定するには?
私はpython-mechanizeを使用していくつかの Web サイトをスクレイピングしていますが、これらのサイトは単にリクエストに応答せず、これらのリクエストが長時間開いたままになっているため、これらのリクエストのタイムアウトを制限する必要があります。
メソッドを使用している間、パラメーターurlopen
を使用してタイムアウトを設定できますが、またはメソッドtimeout
などの高レベル API でそれを行う簡単な方法が見つかりませんでした。理想的には、タイムアウトはブラウザー クラス全体に対して 1 回だけ設定され、すべての呼び出しがそれを尊重します。submit
click
request_class
customを everyclick
とcall に渡すことでこれをカスタマイズすることはおそらく可能submit
ですが、これはコードを汚染するだけなので、mechanize のブラウザ クラスのタイムアウトを設定するためのより良い解決策を探しています (いいえ、変更したくありません)。を使用したデフォルトのソケットタイムアウトsocket.setdefaulttimeout
)。
python - Python + Mechanize + Tor ( HTTPS ) = エンドツーエンドで暗号化され、盗聴を防止できますか?
URL がhttps://サイトを指しているが、これは SSL 暗号化をサポートしていない場合、次の Python コードがエンドツーエンドの盗聴攻撃に対して脆弱かどうかを知りたいです。
なぜ私は疑わしいのですか?Mechanizeは内部的に urllib2 を使用しますが、HTTPS リクエストは urllib2 でサーバーの証明書の検証を行わないためです。
さらに、Urllib2/Mechanize で実際にhttpsまたはhttp接続を使用しているかどうかを確認する方法がわかりません。私の知る限り、Mechanize はブラウザーとして動作するため、SSL がサーバーでサポートされていない場合にhttpにフォールバックするのか、安全でないhttps実装を実行するのかはわかりません。
暗号化されていない Tor 回路から出ているかどうかを確認するにはどうすればよいですか?
コード: