問題タブ [scraper]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Javaを使用してHTMLページからデータをスクレイピングし、データベースに出力
HTMLページからデータを収集してデータベースに出力するスクレーパーを(Javaで)作成する方法を知る必要があります...どこから始めればよいかわからないので、これについて私に提供できる情報は素晴らしいでしょう。また、ここではあまりにも基本的または単純にすることはできません...ありがとう:)
python - ajax呼び出し結果を取得するためのbeautifulsoupとmechanize
こんにちは、python 2.5 と beautifulsoup を使用してスクレイパーを構築していますが、問題が発生したときに無精ひげを生やしています ... ユーザーがボタンをクリックした後に Web ページの一部が生成され、適切なパラメーターを使用して特定の javacsript 関数を呼び出して ajax リクエストを開始します
ユーザーの操作をシミュレートしてこの結果を得る方法はありますか? 私は機械化モジュールに出くわしましたが、これは主にフォームを操作するために使用されているようです...
リンクやコードサンプルをいただければ幸いです
php - Facebookのようなオンデマンドメタコンテンツスクレーパー
FBがFacebookに投稿したリンク(ステータス、メッセージなど)をリンクフィールドに貼り付けた直後にライブでスクレイプし、さまざまなメタデータ、画像の親指、ページリンクからのさまざまな画像を表示するのを見たことがあるでしょう。ビデオ関連のリンク(youtubeなど)からのビデオサム。
この関数をどのようにコピーするかについてのアイデアはありますか?私はカップルのギアマンワーカー、またはxhrリクエストを実行し、正規表現または類似のものに基づいてコンテンツを解析するjavascriptだけを考えています...何かアイデアはありますか?リンクはありますか?誰かがすでに同じことをしようとして、それを素敵なクラスに包みましたか?なんでも?:)
ありがとう!
pdf - ドメイン (*.adomain.com など) からすべての pdf ファイルを取得する
特定のドメインからすべての pdf ファイルをダウンロードする必要があります。そのドメインには約 6000 の pdf があり、それらのほとんどには html リンクがありません (リンクを削除したか、そもそもリンクを配置しなかったかのどちらかです)。
私はグーグルしているので、約6000個のファイルがあることを知っています: filetype:pdf site:*.adomain.com
ただし、Google は最初の 1000 件の結果のみを一覧表示します。これを達成するには、次の 2 つの方法があると思います。
a) Google を使用します。ただし、Google から 6000 件すべての結果を取得するにはどうすればよいですか? もしかしてスクレーパー?(scroogle を試してみましたが、うまくいきませんでした) b) Google をスキップして、ドメインで pdf ファイルを直接検索します。それらのほとんどがリンクされていない場合、どうすればよいですか?
web-crawler - クローラー対スクレーパー
スコープと機能の観点から、誰かがクローラーとスクレーパーを区別できますか?
screen-scraping - Webスクレイパーのブロック
WebサイトがWebスクレイパーをブロックする方法は何ですか?サーバーがボットによってアクセスされているかどうかをどのように識別できますか?
php - メールアドレスをかき集める
fff.htmlはメールアドレスが記載されたメールで、hrefのmailtoリンクがあるものとないものがあるので、スクレイピングして以下の形式で出力したい
href リンクされているものを取得するための単純なスクレーパーがありますが、何かがおかしいです
lorem ipsum の元の使用に対して余分なポイントを取得する必要があります
php - PHP で HTML スクレーパーを作成し、正しく動作させるにはどうすればよいですか?
助けてください!:(
次のことを行うための PHP スクリプトを開発しようとしています。
- リモート HTML ページを破棄し、選択したデータ (特定のテーブル/div など) を抽出します。
- 抽出されたデータを使用して、データベース (MySql など) に保存します。
誰でも助けることができますか?
早急なフィードバックに感謝いたします。
python - Facebook ストリーム API エラーはブラウザでは機能しますが、サーバー側では機能しません
この URL をブラウザーに入力すると、スクレイピングしたい有効な XML データが返されます。
ただし、サーバー側から実行すると、以前のようには機能しません。現在、このエラーが返されるだけです。これは、デフォルトのエラー メッセージのようです。
これが問題のコードです。複数のユーザーエージェントを試しましたが、役に立ちませんでした:
ユーザー エージェントと IP アドレスを除いて、サーバー呼び出しと自分のブラウザーの違いは何ですか?
hyperlink - URL ですべてのページのリンクを見つける方法はありますか?
http://yahoo.com/というリンクがある場合、yahoo 内でリンクを取得できますか? たとえば、私はウェブサイトhttp://umair.com/を持っていて、 Home、About、Portfolio、FAQ、Contact の 5 ページしかないことを知っているので、次のようなリンクをプログラムで取得できますか?