問題タブ [web-scraping]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R(Rcurl / XMLパッケージ?!)を使用してこのWebページをスクレイプするにはどうすればよいですか?
私は(やや複雑な)Webスクレイピングの課題を抱えており、それを達成したいと考えており、(共有したいと思うレベルに)何らかの方向性を望んでいます。
このリンクにあるすべての「種のページ」を確認したいと思います。
それで、それらのそれぞれについて、私は行きます:
- 種のページのリンク(例:http://gtrnadb.ucsc.edu/Aero_pern/)
- 次に、「二次構造」ページのリンクに移動します(例:http://gtrnadb.ucsc.edu/Aero_pern/Aero_pern-structs.html)
そのリンク内で、ページ内のデータをスクラップして、このデータを含む長いリストを作成したいと思います(たとえば)。
各行には独自のリストがあります(各動物のリスト内の各「trna」のリスト内)
そのようなタスクを可能にするパッケージRcurlとXML(R)に出くわしたことを覚えています。でも使い方がわかりません。だから私が欲しいのは:1。そのようなコードを構築する方法に関するいくつかの提案。2.そしてそのようなタスクを実行するために必要な知識を学ぶ方法についての推奨。
助けてくれてありがとう、
タル
java - Javaでの複数のIPによるスクレイピング
基本的に私はスクレイピングアプリケーションを持っています。毎分約n個のアイテムをこすります。現在、IPは1つだけです。
私がスクレイピングしているサイトでは、IPごとに3つの接続が可能です。
別のIPを取得することを考えています。
だから私は6つの接続を取得することができます。
理論的には、40秒でn個のアイテムを取得できるはずです。
現在、私は仕事を成し遂げるためにjava(commons-httpcore)を使用しています。
これがJavaの質問なのかOSの質問なのかわかりません。
私のマシンにはIP1とIP2があり、IP1とIP2を使用してwww.microsoft.comなどに接続するにはどうすればよいですか。接続を行うためにどのIPを使用するかをどのように指定できますか?
javascript - ScrapyからCrawlSpiderを使用して、javascript onclickでリンクをクリックする方法は?
次のリンクに進むページが次のようになっているページをScrapyでクロールしたい:
Scrapyはそのjavascriptコードを解釈できますか?
livehttpheaders拡張機能を使用すると、[次へ]をクリックすると、次のように始まる非常に巨大な「ガベージ」を含むPOSTが生成されることがわかりました。
クラスでスパイダーを構築しようとしてCrawlSpider
いますが、コーディング方法がわかりません。このメソッドBaseSpider
を使用してparse()
、ログインフォームである最初のURLを処理し、POSTを実行しました。
次に、submit_next()を定義して、次に何をするかを指示しました。最初のURLでどのメソッドを使用するかをCrawlSpiderに伝える方法がわかりません。
最初のリクエストを除いて、クロール中のすべてのリクエストはPOSTリクエストです。データの貼り付けと、[次へ]をクリックして次のページに移動するという2種類のリクエストが交互に行われます。
c# - HTMLAgilityPackのスクリーンスクレイピングXPATHがデータを返さない
Digikey用のスクリーンスクレイパーを作成しようとしています。これにより、当社は、部品が製造中止になったときに、価格設定、部品の入手可能性、および製品の交換を正確に追跡できます。Chrome DevtoolsとFirefoxのFirebugで表示されているXPATHと、C#プログラムで表示されているものとの間に不一致があるようです。
私が現在スクレイピングしているページはhttp://search.digikey.com/scripts/DkSearch/dksus.dll?Detail&name=296-12602-1-NDです。
私が現在使用しているコードはかなり速くて汚いです...
使用しているパスは「正しい」ように見えますが、リスト「m_unparsedProductInfoNodes」を見るとNULLになり続けています。
ここで何が起こっているのか分かりますか?また、baseNodeで「SelectNodes」を実行すると、ブラウザのユーザーエージェントによって異なるように見える「cs=####」だけが重要な子を持つdivのみが返されることも追加します。とにかくこれを使用しようとすると(識別できないブラウザーのパスに/ cs = 0を入れる)、式がノードセットに評価されないことを主張するフィットを提案しますが、それらを残すと、過去のすべてのデータの問題が残りますdiv[2]はNULLとして返されます。
web-scraping - グーグルコード検索をこする
Q:Googleコード検索結果からのすべてのプロジェクトファイルの抽出を自動化するためのプログラミングツール/スクリプトに関するアドバイスはありますか?注:質問は特にコード検索に関するものです: http ://www.google.com/codesearch であり、すでにリポジトリにアクセスできる「googlecode」ではありません。
動機:オープンソースプロジェクトの公式サイトは、連絡がないまま長い間消えていて、それを復活させるために追いかけています。プロジェクトファイルは引き続き利用できますが、Googleコード検索結果でのみ使用できます(現時点では)。残念ながら、ファイルが多すぎて、手作業で1つずつ切り取ってペースを調整することができます。
すべてのアイデアを歓迎します、ありがとう!
編集:これまでに見つかった最も近い参照:groups.google.com/group/google-code-search/browse_thread/thread/f643b42934ea75c9/974f99c5cd907e8e#974f99c5cd907e8e
jquery - そこにjQueryウェブスクレイパーはありますか?
jQuery と Adobe AIR を使用して外部サイトから情報を取得しようとしています。現在、非表示div
の jQuery の load 関数を使用して外部サイトのフラグメントをロードしています。情報がロードされると、セレクターを使用していくつかの情報を解析します。これは問題ありませんが、ちょっと汚いので、これを数回実行する必要があります (多くの非表示の div は必要ありません)。
jQueryで書かれた優れたウェブスクレイパー、または私が見逃している別の方法を誰かが知っているかどうか疑問に思っています
php - スクレイピングされている Web サイトが変更されたかどうかを知る方法は?
PHP を使用して Web サイトをスクレイピングし、データを収集しています。正規表現を使用せずにすべて実行されます。代わりに、特定の HTML タグを見つけるために php の expand() メソッドを使用しています。
Web サイトの構造 (CSS、HTML) が変更された場合、スクレイパーによって間違ったデータが収集される可能性があります。問題は、HTML 構造が変更されたかどうかをどのように知ることができるかということです。間違ったデータが保存されないように、データベースにデータを保存する前にこれを特定する方法。
javascript - Google カレンダー経由で Google タスクをウェブスクレイピングする
Gmail とタスク API はどこでも利用できるわけではないため (例: 一部の企業は Gmail をブロックしているがカレンダーはブロックしていない)、カレンダーの Web インターフェイスを介して Google タスクを破棄する方法はありますか?
以下のようなユーザースクリプトを作成しましたが、脆弱すぎることがわかりました。
php - iframe コンテンツが空かどうかはどうすればわかりますか?
このページには ASP でのログインがあり、私のサーバーは PHP であるため、このページが何かを返すかどうかを知る必要があります。
python - urllib と BeautifulSoup を使用して Python で Web から情報を取得する
urllib を使用して html ページを取得し、BeautifulSoup を使用して html ページを解析できますが、BeautifulSoup から読み取るファイルを生成する必要があるようです。
urllib からファイルを生成せずに BeautifulSoup を呼び出す方法はありますか?