問題タブ [web-crawler]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - PHP を使用して、送信された URL から Digg の画像提案を複製する
そこで、digg で見られる機能を最もよく再現する方法についてのアイデアを探しています。基本的には、関心のあるページの URL を送信し、DOM を掘り下げてクロールしてすべての IMG タグを見つけ (特定の高さ/幅を超えるいくつかのタグのみを選択する可能性が高い)、それらからサムネイルを作成し、どれを尋ねるかを尋ねます。あなたは提出物を代表したいと考えています。
そこでは多くのことが行われていますが、私は主に、送信されたページから画像を取得するための最良の方法に関心があります。
php - クロール スクレイピングとスレッディング? PHPで
私は、お気に入りの音楽ブログから MP3 をクロールして収集し、後で聴くための個人 Web サイトを持っています...
その仕組みは、CRON ジョブが毎分 1 回 .php スクリプトを実行し、DB 内の次のブログをクロールすることです。結果は DB に入れられ、2 番目の .php スクリプトが収集されたリンクをクロールします。
スクリプトはページの 2 レベル下までしかクロールしないため、メイン ページ www.url.com とそのページ上のリンク www.url.com/post1 www.url.com/post2
私の問題は、より多くのブログのコレクションを取得し始めたことです。スキャンされるのは 20 ~ 30 分に 1 回だけです。新しいブログをスクリプトに追加すると、毎分 1 つしか処理されないため、リンクのスキャンにバックアップがあります。
PHP の仕組みにより、スクリプトの実行時間のために、スクリプトが複数のリンクまたは限られた量のリンクを処理することを許可できないようです。メモリ制限。タイムアウトなど
また、DB 内で互いに上書きするため、同じスクリプトの複数のインスタンスを実行することはできません。
このプロセスをスピードアップできる最善の方法は何ですか。
DB に影響を与える複数のスクリプトを作成して、相互に上書きせずに結果をキューに入れる方法はありますか?
スクリプトが独自のペースでリンクを処理できるように、PHP でスレッドを作成する方法はありますか?
何か案は?
ありがとう。
web-crawler - 優れた Web クローラーの「エチケット」のガイドライン
私は (楽しみのために) 検索エンジンを構築していますが、私の小さなプロジェクトが、広告をクリックしたり、あらゆる種類の問題を引き起こしたりする可能性があることに気付きました。
では、優れたウェブクローラーの「エチケット」のガイドラインは何ですか?
頭に浮かぶこと:
- Robot.txt の指示に従ってください
- 同じドメインへの同時リクエスト数を制限する
- 広告リンクをたどらない?
クローラーが広告をクリックするのを止める - これは今のところ特に頭に浮かんでいます... ボットが広告を「クリック」するのを止めるにはどうすればよいですか? 広告内の URL に直接アクセスした場合、クリックとしてカウントされますか?
python - Web クローラーと Django フロントエンドのインターフェース
3つのことをしようとしています。
1 つ目は、少なくとも毎日、定義済みの一連のサイトをクロールしてアーカイブすることです。
2: このデータ (テキスト分類) に対して夜間バッチ Python スクリプトを実行します。
3: Django ベースのフロント エンドをユーザーに公開して、ユーザーがクロールされたデータを検索できるようにします。
私は Apache Nutch/Lucene で遊んでいますが、別のクローラー エンジンを使用できる場合、Django でうまく機能させるのは難しすぎるようです。
質問950790は、Django 自体でクローラーを作成できることを示唆していますが、これを行う方法がわかりません。
基本的に-Djangoでクローラーを作成するためのポインター、または私が適応できる既存のpythonクローラーはありますか? それとも、ステップ 2 で「Django に適したものにする」ことを組み込み、グルー コードを記述する必要がありますか? それとも、最後に、Django を完全に放棄する必要がありますか? フロントエンドから素早く検索できるものがどうしても必要なんですけどね。
web-crawler - Webクローラーにとって理想的なプログラム言語は何ですか?
指定されたWebページの数値を読み取るだけのコンテンツ収集プログラムを構築し、後で分析するためにそのデータを保存する必要があります。リンクや関連データを検索するのに必要ではありません。毎日コンテンツが変更されるWebサイトからすべてのデータを収集するだけです。
私はプログラミングの経験がほとんどないので、これが学習に役立つことを願っています。速度は大きな問題ではありません。クローラーは1日に最大で4000ページをロードする必要があると私は推測しています。
ありがとう。
編集:データを収集しているWebサイトがクローラーから保護されているかどうかを事前にテストする方法はありますか?
search-engine - グーグルは私のウェブサイト上の私のテストフォルダにインデックスを付けました:(どうすればウェブクローラーを制限できますか!
助けて!グーグルは、私が知っているはずの誰も保存していない私のウェブサイト上のテストフォルダにインデックスを付けました:(!グーグルがリンクや特定のフォルダにインデックスを付けるのを制限するにはどうすればよいですか。
screen-scraping - Visual Web Scraperを実装するためのテクニックは何ですか?
ビジュアルWebスクレイパーを作成します。ソフトウェアに必要な最も重要な機能は、http://mozenda.com/のような「ビジュアル」です。このソフトウェアは、ユーザーがWebページを閲覧したり、認証、リンクをクリック、検索などのタスクを実行したりするだけでなく、これらすべてのタスクを追跡できるWebブラウザーのようなツールを作成します。誰かがこれを実装するためのテクニックを知っていますか?ありがとう。
asp.net - Perl WebクローラーはASP.NETポストバックをどのように追跡できますか?
Perl/LWPでWebクローラーを構築しています。WebCrawlerは、次のようなASP.NETグリッド内のリンクをどのようにたどることができますか。
php - クローラーから自分のサイトにデータを取得する方法
外部クローラーからデータベース、LAMP 環境で作業しているサイトにデータを取得する最良の方法は何ですか? Web サービスは良い考えですか? クローラーは 15 分ごとに実行されます。