問題タブ [web-crawler]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
5 に答える
795 参照

web-crawler - Webクロールとリンク評価

cURLが完全なファイルをダウンロードすることを知っています。

私が本当に望んでいるのは、ページ上のすべてのリンクを取得し、特定の基準、リンクの場所などに対して評価し、そのページを取得して情報を解析する必要があるかどうかを判断することです。

具体的には、エンターテインメントイベントに関連するリンクを見つけ、データを解析してMySQLデータベースに保存し、自分の地域のイベントのWebサイトにデータを入力したいと考えています。

誰かが達成する方法について考えたことはありますか?

-ジェイソン

0 投票する
3 に答える
4414 参照

.net - VB.Net での WebBrowser.Refresh の問題

私は VB.net で webcrawler に取り組んでおり、System.Forms.WebBrowser オブジェクトを使用して、javascript またはフォーム投稿を使用するサイトでのナビゲーションを処理していますが、問題があります。フォーム ポストが読み込まれたページに戻る (WebBrowser.GoBack()) と、ページの有効期限が切れており、要求を再送信するために更新を行う必要があります。更新 (WebBrowser.Refresh()) を呼び出すと、確認のダイアログ ボックスが表示されます。このモーダル ダイアログをコードで回避する方法はありますか? ありがとう!

0 投票する
2 に答える
1663 参照

seo - Webページのボタンを使用する。Googleはリンクをインデックスに登録しますか?

ページの標準ボタンの外観を使用したいのですが、Webクローラーがリンクであるかのようにそれらをたどってほしいです。

Googleや他のWebクローラーは、このようなリンクを持つWebページにインデックスを付けますか?

そうでない場合、標準のボタンを使用する別の方法はありますか?

0 投票する
2 に答える
3658 参照

web-crawler - Web クローラー http 要求の適切なエチケット

キャッシュとインデックス作成が必要な Web サイトのサイトマップからすべてのページを要求する単純な Web クローラーがあります。いくつかの要求の後、Web サイトは空白ページの提供を開始します。

彼らのサイトマップへのリンク以外には何もないrobots.txtので、私は彼らの「規則」に違反していないと思います. 私の意図に正確にリンクする説明的なヘッダーがあり、クロールするページはサイトマップからのものだけです.

http ステータス コードはすべて問題ないので、短期間に多数の http リクエストを阻止しているとしか思えません。リクエスト間の妥当な遅延とはどのくらいですか?

この問題を引き起こす可能性のある、私が見落とした他の考慮事項はありますか?

0 投票する
4 に答える
1782 参照

webserver - Web クローラーが Web サーバーへの繰り返し要求の間に待機する最適な時間は?

サーバーに過負荷をかけないように、クローラーが同じサーバーに繰り返しヒットするまで待機する必要がある標準的な時間はありますか?

そうでない場合は、クローラーが礼儀正しいと見なされるまでの適切な待機期間に関する提案。

この値もサーバーごとに異なりますか...もしそうなら、どうやってそれを決定できますか?

0 投票する
5 に答える
2278 参照

php - PHP または Ruby で使用できる Web クローラー ライブラリはありますか?

PHP または Ruby で使用できる Web クローラー ライブラリはありますか? 深さ優先または幅優先で実行でき、href="../relative_path.html" とベース URL が使用されている場合でもリンクを処理できるライブラリ。

0 投票する
4 に答える
4086 参照

queue - キューを使用せずに幅優先検索または幅優先トラバーサルは可能ですか?

私が覚えてチェックしたように、ツリーをトラバースしたり、Web 幅優先 (BFS) をクロールしたりする通常の方法は、キューを使用することです。実際にキューを使用せずに実装する方法はありますか?

0 投票する
8 に答える
459211 参照

web-crawler - サイトから URL のリストを取得する

クライアント用に代替サイトを展開していますが、クライアントはすべての古いページが 404 で終わることを望んでいません。古い URL 構造を維持することは、見苦しいため不可能でした。

そのため、要求されている古いページを探して、新しいページへの永続的なリダイレクトを行う 404 ハンドラーを作成しています。問題は、すべての古いページ URL のリストが必要なことです。

これを手動で行うこともできますが、ホームを指定しただけの相対 URL (例: http:/.../page/path ではなく /page/path) のリストを提供するアプリがあれば興味があります。ページ。クモのようですが、より深いページを見つけること以外はコンテンツを気にしません。