問題タブ [web-crawler]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - robots.txt によってブロックされたインターネット ページが見つかりません
問題:大学の数学の講義の答えと演習を見つけること。ヘルシンキ
実用上の問題
Disallow
robots.txtにある .com を含むサイトのリストを作成する- *.pdf のファイルを含む (1) のサイトのリストを作成する
- (2) のサイトのうち、pdf ファイルに「analyysi」という単語が含まれているサイトのリストを作成する
実用的な問題の提案
- 問題 3: PDF ファイルからデータをスクレイピングするコンパイラを作成するには
質問
- 登録されている .com サイトを検索するにはどうすればよいですか?
- Python の defaultdict と BeautifulSoap を使用して、実際の問題 1 と 2 をどのように解決しますか?
search - 他のサイトをかき集める検索エンジンの構成要素はありますか?
ある特定のものの検索サービスを構築したいと思います。データは、無料の求人サービスや他の多くのサイトを介して、自由に利用できます。
ゼロから構築するのではなく、カスタマイズするオープンソースクローラーなどのビルディングブロックはありますか?
そのような製品を作るためのアドバイスはありますか?技術的なだけでなく、私が考慮に入れる必要があるかもしれないプライバシー/法律上の事柄。
たとえば、結果がどこから来たのかを「クレジットを与える」必要があり、元の場所へのリンクを配置する必要があります-多くの場所からそれらを取得する場合はどうなりますか?
編集:ちなみに、私はフロントエンドにJSでGWTを使用していますが、バックエンドの言語は決定していません。PHPまたはPythonのいずれか。考え?
web-applications - Web クローラーと GET 要求と POST 要求
Web クローラーは GET 要求のみを追跡し、POST 要求を追跡しないと聞いたことがあります。
現実の世界では、これは有効な仮定ですか?
search - クローラーインスタンス
大規模なWebクローラーを構築する場合、インターネットサーバーファームにある専用WebサーバーでWebを実行するときに、Webをクロールするときに最適なインスタンスの数。
c# - 個別のインスタンスを持つ .NET カスタム スレッドプール
個別のインスタンス (アプリケーションごとに複数のスレッドプール) を持つことができる、最も推奨される .NET カスタム スレッドプールは何ですか? 無制限のキュー サイズ (クローラーの構築) が必要であり、クロールしているサイトごとに個別のスレッドプールを並行して実行する必要があります。
編集:これらのサイトをできるだけ早くマイニングして情報を得る必要があります.各サイトに個別のスレッドプールを使用すると、いつでも各サイトで動作するスレッドの数を制御できます. (2 ~ 3 個以内)
ありがとうロイ
open-source - 拡張可能なオープン ソースの優れた Web クローラーを知っている人はいますか?
クローラーには、新しいステップ (プリパーサー、パーサーなど) の実装など、内部プロセスの変更を可能にする拡張可能なアーキテクチャが必要です。
Heritrix プロジェクト ( http://crawler.archive.org/ ) を見つけました。
しかし、そのような素晴らしいプロジェクトが他にありますか?
java - Javaからプラグインされたディスクを発見することは可能ですか?
私はディスククローラーを作成しています。ユーザーが既存のパスを指定しない場合、プログラムは使用可能なすべてのディスクを検索する必要があります。誰かがそれが可能であり、それがJavaからそれを行う方法であるかどうかを知っていますか?
url - ドメインの URL のリストを取得する方法
ドメインの URL のリストを生成したいのですが、自分でドメインをクロールしないことで帯域幅を節約したいと考えています。では、既存のクロールされたデータを使用する方法はありますか?
私が考えた 1 つの解決策は、Yahoo サイト検索を実行することです。これにより、最初の 1000 件の結果を TSV 形式でダウンロードできます。ただし、すべてのレコードを取得するには、検索結果をスクレイピングする必要があります。Google もサイト検索をサポートしていますが、データを簡単にダウンロードする方法は提供していません。
ほとんどの (すべてではないにしても) Web サイトで機能するより良い方法を考えられますか?
ありがとう、リチャード
c# - .NET RegEx を使用して HTML ファイルを解析し、1. 外部リンクを見つけるにはどうすればよいですか。2. 内部リンク
競合他社がリンクしているサイトを見つけるのに役立つプログラムを書いています。
そのために、HTML ファイルを解析し、内部リンクと外部リンクの 2 つのリストを生成するプログラムを作成しています。
内部リンクを使用して Web サイトをさらにクロールします。実際に探しているのは外部リンクです。
.NET RegEx を使用して HTML ファイルを解析し、1. 外部リンクを見つけるにはどうすればよいですか。2. 内部リンク。
よろしくお願いします、エイタン・レヴィット。
編集:質問に答えて-いいえ-私は正規表現に縛られていません。他のアイデアを使用できます。