問題タブ [web-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
9 に答える
22307 参照

screen-scraping - スクリーンスクレーパーはどのように機能しますか?

人々がこれらのプログラムを書いているのをいつも聞いており、彼らが何をしているのかは知っていますが、実際にはどのようにそれを行っているのでしょうか? 私は一般的な概念を探しています。

0 投票する
11 に答える
109795 参照

java - Java HTML 解析

私はウェブサイトからデータをスクレイピングするアプリに取り組んでおり、どのようにデータを取得すればよいのか疑問に思っていました. 具体的には、特定の CSS クラスを使用する多数の div タグに含まれるデータが必要です - 現在 (テスト目的で) 確認しています

HTML の各行 - これは機能しますが、他にもっと良い解決策があると感じずにはいられません。

クラスに 1 行の HTML を指定して、次のようないくつかの優れたメソッドを作成できる優れた方法はありますか。

0 投票する
10 に答える
71138 参照

ajax - AJAX ページをどのようにスクレイピングしますか?

AJAX ページをスクレイピングする方法を教えてください。

0 投票する
4 に答える
71192 参照

php - ウェブページのコンテンツをスクレイピングする

バックグラウンドでWebサイトのコンテンツをスクレイピングし、そのスクレイピングされたWebサイトから限られたコンテンツを取得したいプロジェクトを開発しています。たとえば、私のページには「userid」フィールドと「password」フィールドがあり、それらを使用してメールにアクセスし、受信トレイの内容をスクレイピングしてページに表示します。

私はjavascriptのみを使用して上記を行いました。しかし、サインイン ボタンをクリックすると、ページの URL ( http://localhost/web/Login.html ) が URL ( http://mail.in.com/mails/inbox.php?nomail= ) に変更されます。 ... .) 私は削​​られます。ただし、URL を変更せずに詳細を破棄します。

0 投票する
13 に答える
15381 参照

programming-languages - 最高のスクリーンスクレイピング言語は何ですか?

こんにちは、サード パーティの Web ページのフォームをスクレイピングまたは操作するデスクトップ アプリ (c# prob) を作成したいと考えています。基本的に、デスクトップ アプリのフォームにデータを入力すると、サード パーティの Web サイトに移動し、バックグラウンドでスクリプトなどを使用して、そこにデータを入力し (ログインを含む)、送信ボタンをクリックします。ブラウザのロードを避けたいだけです!

この分野で多くの (まったく!) 作業を行っていないので、perl、python、ruby などのスクリプト言語を使用すると、このような作業が可能になるのではないかと考えていました。それとも、単に c# と .net を使用してすべてのスクレイピングを行うのでしょうか? IYOはどれがいい?

スクリプトは、異なるプラットフォームのアプリケーションから同じスクリプトにフックする必要があるかもしれないと考えていました (たとえば、デスクトップ バージョンのように c# で開発できないシンビアン モバイル)。

それ以外の場合は、元のサイトを使用することもできます。無意味に聞こえるかもしれませんが、この特定のフォームの自動化は、私にとって本当に時間の節約になります。

0 投票する
2 に答える
1210 参照

asp.net - コンボ ボックスと HTTP POST で値を選択する Python

Python では、 http://utahcritseries.com/RawResults.aspxの値を読み取ろうとしています。デフォルトの 2002 年以外の年を読み取るにはどうすればよいですか?

これまでのところ、mechanize を使用して、SELECT を参照し、使用可能なすべてのオプション/値を一覧表示できましたが、その値を変更してフォームを再送信する方法がわかりません。

これは一般的な問題であり、頻繁に尋ねられると確信していますが、何を検索すればよいかさえわかりません。

0 投票する
4 に答える
30730 参照

php - Web ページのコンテンツを取得するために curl が機能しないのはなぜですか?

curl スクリプトを使用してリンクに移動し、そのコンテンツを取得してさらに操作しています。以下はリンクとcurlスクリプトです:

しかし、ウェブサイトはスクリプトを介してそれを除外していませんが、結果としてユーザーに例外を与えていますが、通常ブラウザにURLを貼り付けると、ページは完全に正常に開きます.

私がここで間違っていることを助けてください。

感謝と敬意

0 投票する
5 に答える
42435 参照

c# - プログラムでウェブサイトにログインしてスクリーンスケープする方法は?

自分のものではない Web サイトからの情報が必要です。この情報を取得するには、Web サイトにログインして情報を収集する必要があります。これは HTML フォームを介して行われます。C# でこの認証済みスクリーンスケーピングを行うにはどうすればよいですか?

追加情報:

  • Cookie ベースの認証。
  • POST アクションが必要です。
0 投票する
3 に答える
1939 参照

web-applications - ブラウザのナビゲーションとデータ抽出を自動化する

Webサイトからのデータ抽出を自動化しようとしていますが、どこから始めればよいのか本当にわかりません。サプライヤの1つが、「 BusinessObjects11」を通じて一部の機器ログデータへのアクセスを提供しています。「オンラインアプリケーション。このオンラインアプリに慣れていない場合は、Webベースのレポートジェネレータと考えてください。問題は、私が多くの機器を監視しようとしていて、このサプライヤが1つのログを抽出するリクエストを作成しただけであるということです。このリクエストには、機器番号、開始日、終了日が含まれます...さらに悪いことに、de "csv"エクスポートが壊れており、修正を拒否しているため、バイナリExcel形式にしかエクスポートできません。 。したがって、Excelの65 536行の制限によって制限されます...(私の場合は3〜4日間のデータ記録に相当します)。必要な管理者権限を持っているのはサプライヤのみであるため、新しいリクエストを作成できません。

Web GUIを介して多くのリクエスト(約800)を実行する最もエレガントな方法は何だと思いますか?マウスの位置、クリックイベント、キーストロークを遅延などでハードコーディングできると思います...しかし、もっと良い方法が必要です。

AutoHotKeyとAutoItスクリプトについて読みましたが、Web上で実行できることに関しては制限されているようです。また...私はIE6で立ち往生しています...しかし、あなたが別のブラウザを含む方法を知っているなら、私はまだあなたの答えに非常に興味があります。

(ログファイルをローカルに保存したら、データの抽出は問題ありません

0 投票する
1 に答える
809 参照

c# - さまざまなニュース ソースをデータ マイニングするにはどうすればよいですか?

私は、1 日のトップ ニュース記事を分析し、統計情報を提供する無料の Web アプリケーションに取り組んでいます。ほとんどのニュース Web サイトは RSS フィードを提供しています。ただし、ニュース Web サイト自体から完全なニュース記事を取得しようとすると、問題が発生します。現時点では、ソース (CNN、NY Times など) ごとに個別のNewsSourceクラスがあり、適切な RSS フィードを読み取り、各リンクをたどり、本文を取り除きます。ニュース Web サイトが記事の HTML 構造を変更することを決定した場合、これは面倒で非常に扱いにくいように思えます。

複数のニュースソースを(要約だけでなく) 記事の全内容と既に集約しているサービス (できれば無料) はありますか? そうでない場合、予告なしに変更される可能性がある異なる HTML 構造を持つ複数のソースを処理するための提案はありますか?