問題タブ [screen-scraping]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
asp.net - ASP.NET で Web サイトのログインをシミュレートし、ページからデータをスクレイピングするにはどうすればよいですか?
ASP.NETコードで次のことを実行するための推奨事項はありますか?
1) ユーザー名とパスワードを使用して、パスワードで保護されたサイトにログインします (ターゲット サイトは必ずしも ASP.NET ではありません)。
2) 特定のページに移動するか、検索を実行します。
3) ページから特定のデータを取得します (これは簡単な部分です)。
API を使用すると便利ですが、ソース サイトではこの機能が提供されていません。
ログインは非常に簡単です (ユーザー名、パスワード、送信ボタン) -- CAPTCHA などはありません...
perl - Perlでスクレイピングをスクリーニングするにはどうすればよいですか?
Webサイトに保存されているいくつかの値を表示する必要があります。そのため、Webサイトをスクレイプして、テーブルからコンテンツを取得する必要があります。何か案は?
java - Javaアプリの整形式でないXHTMLページをスクレイピングするための最良の方法は何ですか
Webページからコンテンツ、特にタグとその中のコンテンツを取得できるようにしたいと考えています。XQueryとXPathを試しましたが、不正な形式のXHTMLでは機能しないようで、REGEXはただの苦痛です。
より良い解決策はありますか?理想的には、すべてのリンクを要求してURLの配列を取得するか、リンクのテキストを要求してリンクのテキストを含む文字列の配列を取得するか、すべての太字のテキストを要求できるようにしたいと思います。等
php - 今まで見た中で最も醜い HTML のスクリーンスクレイピング
私は PHP と libtidy を使用して、歴史上最も恐ろしく不正な形式の HTML テーブルの使用法をスクリーニングしようとしています。このサイトは、いくつかの table、tr、td、font、または bold タグを閉じており、テーブル内にテーブルの多くの異なるレイヤーを一貫してネストしています。
スニペットの例:
魔法のように、すべてのブラウザーがこれを問題なくレンダリングするようです。PHPTidy はすべてをうまく処理していますが、テーブルは非常に深く、ほぼランダムにネストされているため、DOM XPath を使用してこれをトラバースするのは非常に困難です。
これを行うための他のアプローチについて、誰かに推奨事項はありますか?
POST-MORTEM : あまりにも多くのベルギー産の小麦ビールを飲みすぎてコードを汚した後、table、tr、および td を除くすべてのタグを strip_tags() で削除し、libtidy で実行することで素晴らしい結果が得られました。美しくフォーマットされ、非常に簡単に横断できるようになりました。パーサーに送信する前に、少しマッサージが必要だったようです。
c# - Webメールページをスクリーンスクレイピングするにはどうすればよいですか?
サイトにログインしてWebページのコンテンツをスクレイピングする必要があるプロジェクトを行っています。私は次のコードを試しました:
これにより、メールのログイン ページがスクレイピングされます。しかし、受信トレイの詳細をスクレイピングする必要があります。今後の進め方を教えてください。よろしくお願いします。
programming-languages - 最高のスクリーンスクレイピング言語は何ですか?
こんにちは、サード パーティの Web ページのフォームをスクレイピングまたは操作するデスクトップ アプリ (c# prob) を作成したいと考えています。基本的に、デスクトップ アプリのフォームにデータを入力すると、サード パーティの Web サイトに移動し、バックグラウンドでスクリプトなどを使用して、そこにデータを入力し (ログインを含む)、送信ボタンをクリックします。ブラウザのロードを避けたいだけです!
この分野で多くの (まったく!) 作業を行っていないので、perl、python、ruby などのスクリプト言語を使用すると、このような作業が可能になるのではないかと考えていました。それとも、単に c# と .net を使用してすべてのスクレイピングを行うのでしょうか? IYOはどれがいい?
スクリプトは、異なるプラットフォームのアプリケーションから同じスクリプトにフックする必要があるかもしれないと考えていました (たとえば、デスクトップ バージョンのように c# で開発できないシンビアン モバイル)。
それ以外の場合は、元のサイトを使用することもできます。無意味に聞こえるかもしれませんが、この特定のフォームの自動化は、私にとって本当に時間の節約になります。
php - 選択ボックスからオプションを選択して自動送信するカール機能
私は初心者で、毎日さまざまなことを試し、何かに悩まされているときはいつもここに来ます。
次のリンクに移動するcurlとphpを使用してスクリプトを作成したいと思います:http://tools.cisco.com/WWChannels/LOCATR/openBasicSearch.do次に、各国の各ページを調べて、すべてのパートナーのリストをキャプチャします。国とそれをデータベースに保存します。
スクリプトが選択ボックスから国を1つずつ選択し、ページを国のページにリダイレクトする方法がわかりません...これが最初に行うことです。ページに入ると、名前とアドレスを格納するためのパターンマッチングが機能します。私が管理できるデータベース。
問題は、国のURLを選択する前に:: http://tools.cisco.com/WWChannels/LOCATR/BasicSearch.do であり、国を選択した後、「インド」のURLは次のようになります:http://tools.cisco.com/ WWChannels / LOCATR / performanceBasicSearch.do、選択された国への参照はありません。
私が持っていたアイデアは、HTMLページをトラバースし、すべての国を配列に入力してから、再帰関数を作成して特定の国のページを呼び出すことでしたが、そのためには、再帰関数で国ごとに異なるURLが必要ですか?
助けてください
asp.net - asp.net AJAX アプリケーションから Python でデータを取得する
Python を使用して、 http://utahcritseries.com/RawResults.aspxの値を読み取ろうとしています。ページは問題なく読めますが、年のコンボ ボックスの値を変更して、他の年のデータを表示するのに苦労しています。デフォルトの 2002 年以外の年のデータを読み取るにはどうすればよいですか?
年コンボ ボックスが変更されると、ページは HTTP Post を実行しているように見えます。コントロールの名前は ct100$ContentPlaceHolder1$ddlSeries です。urllib.urlencode(postdata) を使用してこのコントロールの値を設定しようとしましたが、何か間違ったことをしているに違いありません。ページのデータが変更されていません。これはPythonで行うことができますか?
可能であれば、Selenium を使用しないことをお勧めします。
私はこのようなコードを使用してきました(stackoverflowユーザーdbrから)
しかし、同じ 2002 年のデータを引き出しているようです。firebug を使用してヘッダーを検査しようとしましたが、多くの無関係でランダムに見えるデータが送受信されているのを確認しました。これらの値をサーバーにもポストする必要がありますか?
api - スクレイピングせずにMyspaceページから今後のイベント/ショー情報を取得することは可能ですか?
myspace アーティストから番組情報を入手したい。これを行う 1 つの方法は、アーティストに myspace の URL を入力してもらい、ページのスクレイピングを試みることです。
私が本当にやりたいことは、アーティストに myspace 資格情報を尋ね、myspace API を使用してショー データを取得することです。myspace 開発者サイトでこれを行う方法が見つかりません。誰か知っていますか?
余談ですが、ページをスクレイピングすることにした場合、それは合法ですか? 多くの人がそうしている気がします。