問題タブ [robobrowser]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python 3.4 用 RoboBrowser のインストール方法
誰かがステップ内訳のステップを教えてもらえますか? この Web サイトhttp://robobrowser.readthedocs.org/en/latest/installation.htmlでは、インストール手順について「コマンドラインで: $ easy_install robobroswer」と表示されています。これは何を意味するのでしょうか?
python - Python RoboBrowser - このページからコンテンツを取得する方法
ページでフォームを送信しようとしていますhttp://pretraga2.apr.gov.rs/ObjedinjenePretrage/Search/Search
ただし、次のようなエラー(HTML)を受け取ります:
現在の Python スクリプト:
ヘッダーを追加しようとしましたが、うまくいきません。他に何が問題になる可能性がありますか?
python - Python で XML-RPC を使用せずにワードプレスで投稿を公開する
以前は、python-wordpress-xmlrpcライブラリを使用して Wordpress で投稿を公開しましたが、すべてうまくいきましたが、最近、XML-RPC.php ファイルを使用してブログに大規模なフラッディング攻撃がありました。API を無効にする必要があるため、Python スクリプトを介して投稿を公開する便利な方法を探しています。RoboBrowser を試しましたが、AJAX 機能がありません。Requests モジュールも試してみましたが、特に HTTP リクエストと AJAX に関しては、ネットワーク トラフィックの分析が苦手なので、思い通りに動作させることができません ;) したがって、Wordpress と requests モジュールの操作方法を知っている場合、助けてください:)
このコードを使用すると、ワードプレスにログインして新しい投稿を作成できますが、タイトル、コンテンツの入力、カテゴリの選択などの際に大量の AJAX リクエストが発生するため、これらのデータ エントリを処理して最終的に投稿を公開する方法に非常に圧倒されます。役職。
python - どうすればこれをこすることができますか?
このページ (フォームがある) をスクレイピングする必要があります: http://kllads.kar.nic.in/MLAWise_reports.aspx、できれば Python (Python でない場合は JavaScript) を使用します。RoboBrowser (基本的にはMechanize + BeautifulSoup) や (おそらく) Seleniumなどのライブラリを調べていましたが、その方法についてはよくわかりません。要素を調べると、入力する必要があるのは WebForm のようです。入力後、Web ページは保存する必要のあるデータを生成します。どうすればいいですか?
python - Python で特定の URL に接続できない
Python でHeathrow ポイントサイトに接続しようとしています。RoboBrowser
ライブラリを使用してページからデータをスクレイピングしようとしていますが、接続しようとするとReadTimeout
エラーが発生します。私がこれを行った他のすべての URL (つまり、Waterstones、Maximiles) は正常に機能しました。
requests
とurllib
ライブラリに接続しようとしましたが、両方で同じ結果が得られました。
問題はSSL検証に関係していると思ったので、それをオフにしましたが、何も変わりませんでした.
私が言及したライブラリのいずれかで上記の URL に接続することで、問題を自分で再現できるはずです。
python - Python、認証が認識されない - urllib2、リクエスト、asp.net
私はこれについて特に進んでいるわけではありませんが、urrlib2、リクエスト、およびスクレイピーを使用して過去に成功したことがありますが、これには困惑しています。それで、よく検索してキーボードに頭をぶつけた後、先に進んで質問します。
サイトの HTML ソース コードを取得したいのですが、ユーザー名とパスワードを使用した後、ユーザー名とパスワードが間違っているというページが表示され続けます。それらはブラウザーで正常に動作し、ソース コードにログインすると、(ブラウザー経由で) すぐに利用できます。しかし、python/terminal を介して同じ結果を達成できないようです。以下に、私の試みのいくつかを含めます(これらの役立つページから光ったものです)。
urllib2 を使用:
別のバージョン:
リクエストを使用した試み:
私もスクレイピーを使用しようとしましたが、使用するライブラリに関係なく、パスワード/詳細が間違っているというページのhtmlが返されます。私が送信しているヘッダー/承認(?)に関係していると思いますが、あまり確信が持てません。助けていただければ幸いです。更新できるその他の詳細を教えてください(これで夜中起きていたので、この投稿が意味をなさない場合はご容赦ください!)
編集:
以下のPrashantの回答に対するトレースバック応答は次のとおりです(パスワードなどを除く):
ファイル "/Users/Hatsaw/newpy/pras.py"、3 行目、r = requests.get(URL, auth=('username','password')) 内 ファイル "/Library/Frameworks/Python.framework/Versions /2.7/lib/python2.7/site-packages/requests-2.9.0-py2.7.egg/requests/api.py"、67 行目、get return request('get', url, params=params, **kwargs) ファイル "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/requests-2.9.0-py2.7.egg/requests/api.py"、53 行目、リクエストで session.request(method=method, url=url, **kwargs) ファイル "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/requests-2.9.0 -py2.7.egg/requests/sessions.py"、468 行目、リクエスト内 resp = self.send(prep, **send_kwargs) ファイル "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/requests-2.9.0-py2.7.egg/requests/sessions.py"、576行目、send r = adapter.send(request, **kwargs) File" /Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/requests-2.9.0-py2.7.egg/requests/adapters.py"、437 行目、送信時に ConnectionError( e, request=request) requests.exceptions.ConnectionError: HTTPConnectionPool(host='website', port=80): url: /dashboard/ で最大再試行回数を超えました (原因 NewConnectionError(': Failed to Establish a new connection: [Errno 8] nodename も servname も指定されていないか、不明です',))7/site-packages/requests-2.9.0-py2.7.egg/requests/adapters.py"、437 行目、送信中、ConnectionError(e、request=request) requests.exceptions.ConnectionError: HTTPConnectionPool(host=' website', port=80): URL で最大再試行回数を超えました: /dashboard/ (NewConnectionError(': 新しい接続を確立できませんでした: [Errno 8] nodename も servname も提供されていないか、または不明です',) が原因です))7/site-packages/requests-2.9.0-py2.7.egg/requests/adapters.py"、437 行目、送信中、ConnectionError(e、request=request) requests.exceptions.ConnectionError: HTTPConnectionPool(host=' website', port=80): URL で最大再試行回数を超えました: /dashboard/ (NewConnectionError(': 新しい接続を確立できませんでした: [Errno 8] nodename も servname も提供されていないか、または不明です',) が原因です))
編集:
わかりました、私は現在機械化を使用しています(以下で推奨)。これが返されたものです(これが私の根本的な問題の別のインスタンスなのか、機械化ができないのかはわかりません!):
file "/Users/Hatsaw/newpy/pras2.py", line 13, in browser.form['email'] = 'email address' File "build/bdist.macosx-10.6-intel/egg/mechanize/_form.py "、2780 行目、setitem ファイル "build/bdist.macosx-10.6-intel/egg/mechanize/_form.py"、3101 行目、find_control ファイル "build/bdist.macosx-10.6-intel/egg/mechanize/_form" .py"、3185 行目、_find_control mechanize._form.ControlNotFoundError: 名前 'email' に一致するコントロールがありません
編集:
まだこれに苦労しているので、このプロジェクトの時間がなくなる前に最後の溝の努力をして、手動ですべての html を取得する必要があります! 成功を祈っている..
わかりました、barny のアドバイスで、私はリクエストの使用に戻りました。私は、成功したブラウザー ログインから得た Cookie 情報を投稿に提供しようとしています。これを正しく行っているかどうかはわかりませんが、次のものを使用しています:
現在、内部サーバー エラーの応答が返されています。いくつかの調査の後、aspnet フォームが問題のようです。
最初にリクエストに問題がないことを確認したいだけです。それから、上記のSOリンクでMartijn Pietersが推奨するように、BeautifulSoup/robobrowserを調べてみます。
HTMLのフォームセクションが求めているものは次のとおりです。
そう。いくつかの小さな質問。
「ユーザー/パス」という用語は、ソース コードと一致する必要がありますか?つまり、ユーザー名 = ユーザー名またはユーザーですか?: HTML でこれを見つけた場所を失ってしまいましたが、「ctl00$cphMain$tbUsername」と「ctl00$cphMain」を見つけました。 $tbPassword'…</p>
パスワードやユーザー名を base64.encodestring として送信する必要がありますか? (これが問題かどうかはわかりませんが、パスワードに !@$ などの文字が含まれています。)
ブラウザーから見つけたすべての Cookie フィールドを追加する必要がありますか?それとも PHPSESSID だけを追加する必要がありますか? クッキーにあるフィールドは次のとおりです。
ASP.NET_SessionId、CFID、CFTOKEN、__atuvc、__utma、__utmb、__utmc、__utmt、__utmz、BRO_CALLME、BRO_ID、BRO_LOGIN、BRO_MEMBER、BROAUTH、ISFULLMEMBER、phpMBLink、__CT_Data、WRUID
- Web サイト (www.website.com)、ログイン ページ (www.website.com/login)、そしてコンテンツ (www.website.com/content) があります。(ログインに成功した) ログイン ページの Cookie を使用して、それをコンテンツ ページに「送信」したと考えるのは正しいですか? これを手動で行う必要がありますか (ブラウザの Cookie 情報からフィールドの詳細を入力する)、またはコード内で行う必要がありますか (したがって、以下のコードでは cookies = r_login.cookies を使用します)?
最後に、内部サーバー エラーを返す現在使用しているコードを次に示します。
申し訳ありませんが、これはかなり長くなりました。いくつかの投稿に分割する必要がある場合はお知らせください。最初は簡単な質問だと思っていたことが、別のものに変化しました。
python - タグの間からテキストを抽出する方法は?
私は robobrowser を使用してこのページをスクレイピングしています。ページ内には、textarea
コピーして保存する必要がある情報を含むタグがあります。
これは私のコードです:
からテキストを取得するにはどうすればよいですか
私はXXXXX
彼ら自身で変数に必要です。