問題タブ [mechanize]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - mechanize ライブラリで HEAD リクエストを実行するにはどうすればよいですか?
httplib で HEAD リクエストを行う方法は知っていますが、このサイトでは mechanize を使用する必要があります。
基本的に、ファイルを実際にダウンロードすることなく、ヘッダー (ファイル名) から値を取得する必要があります。
これを達成する方法について何か提案はありますか?
python - Python の mechanize モジュールのエラー
このモジュールを使用して、mechanize
Python から Web クエリを実行しています。私は自分のプログラムがエラー耐性があり、あらゆる種類のエラー (間違った URL、403/404 応答など) を適切に処理できるようにしたいと考えています。ただし、mechanize のドキュメントには、さまざまなエラーに対してスローされるエラー/例外が見つかりません。
私はちょうどそれを呼び出す:
ここでどのようなエラー/例外がスローされるかを知り、それらを処理するにはどうすればよいですか?
php - Perl の WWW::Mechanize に相当する PHP はありますか?
Perl のWWW::Mechanizeに似た機能を持つライブラリを探していますが、PHP 用です。基本的に、単純な構文で HTTP GET および POST 要求を送信し、結果のページを解析して、すべてのフォームとそのフィールド、およびページ上のすべてのリンクを単純な形式で返すことができるようにする必要があります。
私は CURL について知っていますが、それは少し必要最小限であり、構文はかなり醜いです (大量のcurl_foo($curl_handle, ...)
ステートメント
説明:
これまでの回答よりもレベルの高いものが欲しいです。たとえば、Perl では、次のようなことができます。
HTTP_Client、wget、または CURL を使用して同じことを行うのは大変な作業です。手動でページを解析して、リンクを見つけたり、フォーム URL を見つけたり、非表示のフィールドをすべて抽出したりする必要があります。私が PHP ソリューションを求めている理由は、私は Perl の経験がなく、多くの作業で必要なものを構築できる可能性があるためですが、PHP で上記を実行できれば、はるかに迅速になります。
ruby - Mechanize を使用してページごとにデータを表示するスクリーン スクレイプ Web ページ
レコードをグリッドページごとに表示する Web ページ (Mechanize を使用) をスクリーンスクレイピングしようとしています。最初のページに表示された値を読み取ることができますが、次のページに移動して適切な値を読み取る必要があります。
私はすべてのリンクを通過することができますが、これを試してみると:-
その理由は、agent.click が URL を引数として想定しているためです。
ページごとに表示されているすべての値を読み取る方法はありますか? そうでない場合、href が URL ではなくポストバックである場合、どうすればそのようなクリック アクションを実行できますか??
python - Python 機械化 - 「送信」タイプの 2 つのボタン
Webフォームに記入し、「作成」ボタンをクリックすることになっているPythonで書かれた機械化スクリプトがあります。しかし、問題があります。フォームには 2 つのボタンがあります。1 つは「添付ファイルの追加」用で、もう 1 つは「作成」用です。どちらも「送信」タイプで、添付ボタンが最初に表示されます。そのため、フォーラムを選択して br.submit() を実行すると、「作成」ではなく「添付」ボタンがクリックされます。広範囲にわたるグーグル検索では、フォーム内の特定のボタンを選択するのに役立つものは何も得られませんでした。最初の「送信」ボタンをスキップして2番目のボタンをクリックする方法を知っている人はいますか?
javascript - Mechanize を使用して JavaScript を処理するにはどうすればよいですか?
Web サイトに接続し、ログインしています。
ウェブサイトは私を新しいページにリダイレクトし、Mechanize はすべての Cookie とリダイレクト ジョブを処理しますが、最後のページを取得できません。私は Firebug を使用し、同じ作業を再度行ったところ、Mechanize で渡さなければならないページがさらに 2 つあることがわかりました。
ページをざっと見てみると、JavaScript と HTML のコードがいくつかありますが、通常のページ コードのようには見えないため、理解できませんでした。それらのページは何のためにあるのですか? どうすれば他のページにリダイレクトできますか? これらを渡すにはどうすればよいですか?
perl - WWW::Mechanize がリダイレクトに従わないようにするにはどうすればよいですか?
WWW::Mechanizeを使用してファイルから読み取り、Web サイトで自動化されたタスクを実行する Perl スクリプトがあります。ただし、特定のページをリクエストするたびに、Web サイトは 302 リダイレクトを使用します。リダイレクトされたくない (リダイレクト先のページの応答に時間がかかりすぎる)。ファイルをループして、最初のリンクを何度も呼び出したいだけです。WWW::Mechanize がリダイレクトに従わないようにする方法がわかりません。助言がありますか?
ruby - スレッドとルビーの機械化は安全ですか?
次のような多くのエラーが表示されることはありますか?
スレッドと機械化を使用する場合は? これはスレッドとライブラリ間の悪い動作であることは比較的確信していnet/http
ますが、mechanize/nethttp を使用するときに一度に実行したいスレッドの上限について誰かアドバイスはありますか? rescue Net::HTTPBadResponse
そして、うまくいかないので、どうすればこの種の例外をキャプチャできますか?
ruby - HTMLスクレイピング問題を機械化する
ruby mechanize と hpricot を使用して自分のウェブサイトのメールを抽出しようとしています。私の管理側のすべてのページでそのループを実行し、 hpricot.so でページを解析しようとしているのはとても良いことです。それから私は得る:
一連のページを解析すると、タイムアウトで始まり、ページのhtmlコードが出力されます。なぜ理解できませんか?どうすればそれをデバッグできますか? 機械化すると10ページ以上連続して取得できるようです?? 出来ますか??ありがとう
end
def extract(page) #puts search.body search=@agent.get( "http://***.com/admin/members.asp?action=search&term=&state_id=&r=500&p=#{page}") doc = Hpricot(search.body)
end
end
puts "starting extacting emails ... "
start =ARGV[0].to_i
h=Harvester.new(186) h.login h.harvest(start)
python - このページのフォームで機械化が失敗しないようにする方法は?
上記のコードの結果は次のとおりです。
私の具体的な目標は、ログインフォームを使用することですが、フォームがあることを機械化することさえできません。任意の フォームを選択する最も基本的な方法だと思うものを使用してもbr.select_form(nr=0)
、同じトレースバックが発生します。違いがある場合、フォームの enctype は multipart/form-data です。
要約すると、2 つの部分からなる質問に要約されると思います: このページを機械化するにはどうすればよいですか? または、それが不可能な場合、Cookie を維持しながら別の方法を使用することはできますか?
編集: 以下で説明するように、これは「 https://steamcommunity.com 」にリダイレクトされます。
次のコードでわかるように、Mechanize は HTML を正常に取得できます。