問題タブ [web-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
10 に答える
107824 参照

java - Webサイト(またはページ)で情報を「スキャン」して、プログラムに取り込むにはどうすればよいですか?

ええと、私はWebページから情報を引き出し、それを私のプログラム(Javaで)に取り込む方法をかなり理解しようとしています。

たとえば、情報が必要な正確なページがわかっている場合、わかりやすくするために、Best Buyのアイテムページから、そのページから必要な適切な情報を取得するにはどうすればよいですか。タイトル、価格、説明のように?

このプロセスは何と呼ばれるでしょうか?私はこれを研究し始めることすら考えていませんでした。

編集:さて、私はJSoup(BalusCによって投稿されたもの)のテストを実行していますが、このエラーが発生し続けます:

私はApacheCommonsを持っています

0 投票する
4 に答える
5594 参照

php - YahooFinanceから為替レートを取得するためのPHPとcurl

Yahoo Financeから通貨換算レートを取得するために、次のphpスニペットを作成しました。

curlを使用してデータをフェッチしています。米ドル(USD)からインドルピー(INR)に換算したい場合、URLはhttp://in.finance.yahoo.com/currency/convert?amt=1&from=USD&to=INR&submit=であり、インドルピーの値は45.225として表示されます。ただし、コードを実行すると、取得する値は452.25になります。なぜこの不一致?

正規表現に何か問題がありますか?

0 投票する
2 に答える
1234 参照

java - データ抽出?

さまざまな Web サイトからさまざまなデータを抽出する方法を探しています。購入できるプログラムがあることは知っていますが、学習しようとしているので、自分でやりたいと思っています。一般的な構造について誰か提案がありますか?もしそうなら、どの言語で書きますか?

0 投票する
2 に答える
891 参照

java - Javascript で生成されたコンテンツ (この場合は HTML テーブル) を含むページの HTML ソースをスクレイピングするための優れたソリューションはありますか?

Javascript で生成されたコンテンツ (この場合は HTML テーブル) を含むページの HTML ソースをスクレイピングするための優れたソリューションはありますか?

Crowbarを使用した実行可能なソリューションですが、非常に単純です。

Crowbar を使用する利点は、ヘッドレス Mozilla ベースのブラウザーのおかげで、テーブルがレンダリングされる (およびアクセス可能になる) ことです。編集:Crowbarの問題は、サーバーのダウンタイムではなく、競合するアプリであることがわかりました。これは単なる偶然でした.

0 投票する
3 に答える
4697 参照

php - PHPで大量のページをスクレイピングする最速の方法は何ですか?

私は、いくつかのサイトをスクレイピングし、ユーザーが検索できるようにそれらの情報をインデックス化することに依存するデータ アグリゲーターを持っています。

毎日膨大な数のページをスクレイピングできるようにする必要があり、単純なカールリクエストを使用して問題に遭遇しました。これは、長時間連続して実行するとかなり遅くなります (スクレイパーは基本的に 24 時間年中無休で実行されます)。

単純な while ループでマルチ カール リクエストを実行すると、かなり時間がかかります。バックグラウンド プロセスで個々の curl リクエストを実行することで高速化しましたが、遅かれ早かれ遅いリクエストが積み重なってサーバーがクラッシュします。

データをスクレイピングするより効率的な方法はありますか? おそらくコマンドラインカール?

0 投票する
1 に答える
1187 参照

c# - プログラムでフォームを送信し、ページングをループします(C#.NET)

一部のデータをマイニングするために、カスタムWebスクレイパーを作成する必要があります。?HttpWebRequestクラスのPostメソッドを使用してフォームを送信する方法を知っています。私の課題は、結果のページをループして、各ページからレコードを取得することです。

誰かが指摘するコードサンプルや記事を持っていますか?ありがとう

0 投票する
1 に答える
1794 参照

android - Android アプリの Java に関する Web スクレイピングのアドバイス / ヘルプ!

Web ページからデータを取得できる Web スクレイピング ソフトウェアについて聞いたことがあります。Android アプリを作成しています。このサイト www.menupages.ie から情報を取得したいと考えています。

必要なのはレストランの名前だけで、自分で入力するのは非常に面倒です。

Eclipseでこれを行う方法、必要な方法などを教えてもらえますか。それについては何も知りません。

どうもありがとう。

0 投票する
3 に答える
98723 参照

python - BeautifulSoup:特定のテーブルの内容を取得します

私の地元の空港は、IEを持たないユーザーを恥ずかしそうにブロックし、ひどい目に見えます。到着ページと出発ページの内容を数分ごとに取得し、より読みやすい方法で表示するPythonスクリプトを作成したいと思います。

私が選んだツールは、IEを使用していると信じてサイトをだますための機械化と、フライトデータテーブルを取得するためのページの解析のためのBeautifulSoupです。

正直なところ、BeautifulSoupのドキュメントに迷い、ドキュメント全体からテーブル(タイトルを知っている)を取得する方法と、そのテーブルから行のリストを取得する方法を理解できません。

何か案は?

0 投票する
6 に答える
58141 参照

android - AndroidでHTML Webページをスクレイピングする最速の方法は何ですか?

Android の非構造化 Web ページから情報を抽出する必要があります。必要な情報が、ID を持たないテーブルに埋め込まれています。

使うべきか

  • パターンマッチング?
  • BufferedReader を使用して情報を抽出しますか?

または、その情報を取得するより速い方法はありますか?

0 投票する
2 に答える
2081 参照

php - フォーラムをこするプログラムを書く

フォーラムをスクレイプするプログラムを作成する必要があります。

Scrapyフレームワークを使用してPythonでプログラムを作成する必要がありますか、それともPhp cURLを使用する必要がありますか?また、Scrapyに相当するPHPはありますか?

ありがとう