問題タブ [scrapinghub]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
web-scraping - Web サイトにログインし、Scraping Hub でデータを収集します
私はスクレイピングハブを 2 日間使用しましたが、ウェブサイトにログインしてデータをスクレイピングする方法を探しています。このトピックは表示されますが、Dash に適用する方法がわかりません。
http://blog.scrapinghub.com/2012/10/26/filling-login-forms-automatically/
それを達成する方法を説明していただけますか?
Scrapy だけを使用していたときは、次のように実現します。
しかし、Scraping Hub を使用してそれを達成する方法がわかりませんでした:/
python-2.7 - Windows での portia (scrapy/slybot) エラー
私はportiaをインストールして動作させました。いくつかのWebサイトに注釈を付けました(本当に良さそうです)が、スパイダーを実行しようとするとエラーが発生し
、win 7でpython 2.7.6を実行しているときに何もクロールされません
scrapinghub - Scrapinghub を使用して特定の Web サイトをスクレイピングできない
私は、scrapinghub サービスの自動スクレイピング機能を使用しています。
オートスクレイパーを構築してデプロイしているときに、スクレイピングしたいサイトがリクエストをまったく返さず、約 3.5 分でタイムアウトすることがわかりました。
それで、なぜこれが起こっているのかを理解できるかどうかを確認するためにドキュメントを読み始めました(サイトが自動スクレイピングに適しているかどうかを確認する方法)。
手順に従い、ブラウザー (chrome) から Javascript を一時的に削除したところ、スクレイピングしたいサイトを問題なく表示できることがわかりました。
私の質問は、あいまいに聞こえるかもしれませんが、Javascript 以外に、サイトがスクレイピングできない他の理由は何でしょうか? このような問題を診断する方法に関する他のアイデアはありますか?
javascript - セレクターを解析できませんか?
私は現在、centos でスクレイピー + スプラッシュ + パイソンを使用しています。hereからコンテンツを抽出するための次のコードを記述しました。
"href="javascript:void(0);" などの Java スクリプト ポップアップ ウィンドウからデータを抽出できません。
スパイダーコード:
次のエラー:
python-2.7 - 以下のリンクの rejax と xpath の書き方を教えてください。
これはリンクhttps://www.google.com/about/careers/search#!t=jo&jid=34154&で、仕事の詳細の下にあるコンテンツを抽出する必要があります。
ここに、上記のコンテンツを抽出するための html コードを追加しました。
スパイダーコードは次のとおりです。
出力は次のとおりです。
javascript - スプラッシュ付きのスクレイピー python で javascript を介して次のページを達成しますか?
実際、私の意図は Next from を達成すること"href="javascript:submitAction_win0(document.win0,'HRS_APPL_WRK_HRS_LST_NEXT')"
なので、例として [この URL][1] を取り上げます。この URL から、ページの最後に Next が表示されるので、タグhref="javascript:submitAction_win0(document.win0,'HRS_APPL_WRK_HRS_LST_NEXT')
が.href
#
#
上記のコードを実行すると、結果が として返されます。" HTTP status code is not handled or not allowed"
つまり、何もありません。その関数を使用して Next を達成する方法と""href="javascript:submitAction_win0(document.win0,'HRS_APPL_WRK_HRS_LST_NEXT')""
、結果が空である理由を教えてください。私はhtmlである種の奇妙なことを観察しています。たとえば、次のページの1つに次のようなアンカータグがあります"<a id="HRS_APPL_WRK_HRS_LST_NEXT" class="PSHYPERLINK" href="javascript:submitAction_win0(document.win0,'HRS_APPL_WRK_HRS_LST_NEXT');" tabindex="74" ptlinktgt="pt_replace" name="HRS_APPL_WRK_HRS_LST_NEXT"></a>"
前もって感謝します
出力: