問題タブ [web-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
809 参照

c# - さまざまなニュース ソースをデータ マイニングするにはどうすればよいですか?

私は、1 日のトップ ニュース記事を分析し、統計情報を提供する無料の Web アプリケーションに取り組んでいます。ほとんどのニュース Web サイトは RSS フィードを提供しています。ただし、ニュース Web サイト自体から完全なニュース記事を取得しようとすると、問題が発生します。現時点では、ソース (CNN、NY Times など) ごとに個別のNewsSourceクラスがあり、適切な RSS フィードを読み取り、各リンクをたどり、本文を取り除きます。ニュース Web サイトが記事の HTML 構造を変更することを決定した場合、これは面倒で非常に扱いにくいように思えます。

複数のニュースソースを(要約だけでなく) 記事の全内容と既に集約しているサービス (できれば無料) はありますか? そうでない場合、予告なしに変更される可能性がある異なる HTML 構造を持つ複数のソースを処理するための提案はありますか?

0 投票する
2 に答える
5170 参照

php - Web サイトを検索して PHP でデータを取得するにはどうすればよいですか?

もう少し PHP を学習しようとしています。これが私が求めているものです。

本質的に、私はウェブサイトを検索し、自分のウェブサイトにデータを返したいと思っています。

  1. フォームにいくつかのキーワードを追加します。
  2. これらのキーワードを使用して、monster.com などの Web サイトにクエリを実行し、入力したキーワードに一致する結果を取得します。
  3. そのデータを取得して、自分の Web サイトに返します。

このようなことはどれほど難しいですか?上記の概要が単純化しすぎていることは承知していますが、提供できるヒントは大歓迎です。

0 投票する
3 に答える
1447 参照

python - すべてのCtrl+Alt + DelウェブコミックをダウンロードするためのPythonスクリプト?

誰か持っていますか?Comicdownloaderを試しましたが、最新のコミックをダウンロードすることしかできず、Pythonを十分に理解していないため、すべてのコミックをダウンロードするように変更する方法がわかりません。

0 投票する
4 に答える
2302 参照

java - Javaを使用して適切なエンコーディングでHTMLページを取得するにはどうすればよいですか?

ページのエンコーディングでHTMLページを含むHTTPストリームを読み取るにはどうすればよいですか?

これは、HTTPストリームを取得するために使用するコードフラグメントです。InputStreamReaderにはencodingオプションの引数がありますが、それを取得する方法についてはわかりません。

0 投票する
4 に答える
122769 参照

html - XML パッケージを使用して HTML テーブルを R データ フレームにスクレイピングする

XML パッケージを使用して html テーブルをスクレイピングするにはどうすればよいですか?

たとえば、ブラジルのサッカー チームに関するウィキペディアのページを見てみましょう。Rで読み込んで、「ブラジルがFIFA認定チームと対戦したすべての試合のリスト」テーブルをdata.frameとして取得したいと思います。これどうやってするの?

0 投票する
4 に答える
13154 参照

java - Java を使用してサーバー側の特定の URL から HTML コンテンツを取得するにはどうすればよいですか?

Java を使用してサーバー側の特定の URL から HTML コンテンツをロードする必要があるアプリケーションを設計しています。どうすれば解決できますか?

よろしく、

0 投票する
1 に答える
272 参照

php - ウェブサイトのページを読む

http://example.com/aという Web サイトがあるとします。

ウェブサイトは、PHP、Perl、Ruby、およびその他の言語を使用して開発されています。

私のウェブサイトからこのウェブサイトのページを読み取り、コードを実行してから、HTML 結果ページのタグを分析し、PHP を使用してコンテンツを取得できるようにしたいと考えています。

いくつかのニュース Web サイトからニュースを読み、それを別の形式または別のスタイルで自分の Web サイトに表示するようなものです。

0 投票する
4 に答える
2660 参照

php - 部分的な Web ページを取得する

CURL がフェッチするデータの量を制限する方法はありますか? 50kb のページからデータをスクリーン スクレイピングしていますが、必要なデータはページの上部 1/4 にあるため、実際にはページの最初の 10kb のみを取得する必要があります。

監視する必要があるデータが大量にあり、その結果、この帯域幅の約 5 GB しか関連しない場合、1 か月あたり 60 GB 近くのデータを転送することになるため、質問しています。

PHP を使用してデータを処理していますが、データ取得のアプローチは柔軟で、CURL、WGET、fopen などを使用できます。

私が検討している1つのアプローチは

上記は、www.website.com から 6kb のみを転送することを意味するのでしょうか、それとも fopen が www.website.com をメモリにロードするということは、50kb 全体を転送することを意味するのでしょうか?

0 投票する
2 に答える
1259 参照

web-scraping - イエローページデータの無料ソース?

基本的なイエローページデータ(名前、住所、電話番号)を含む無料のソースはありますか?古くなってもかまいません。グーグルで何も見つかりませんでした。私がデータダンプを探していることを明確にするために、私はイエローページ.comまたは通常のクエリのために何でも行くことができることを知っています。最後の手段として、私はおそらくそれをこすります。

0 投票する
7 に答える
5423 参照

web - URLで会社名を探す

有名な会社のURL(例: http: //mcdonalds.com/)を前提として、会社名(この場合は「マクドナルド」)を自動的かつ確実に見つけるにはどうすればよいでしょうか。

ありがとう

編集:誰かがこの質問を閉じることに投票したので、動機を説明する必要があるかもしれません。会社のURLのリストがたくさんあり、Googleマップを使用して各会社のデータを検索したいと思います。また、会社名でGoogleマップを検索すると、URLよりもはるかにうまく機能します。

「http」と「com」を削除すると、多くの場合、特に有名な企業では機能しますが、すべてではありません。whoisレコードはあまり役に立たなかったことがわかりました。

URLに一致するある種の公開データベースがあることを望んでいましたが、今のところ出会っていません。