問題タブ [web-crawler]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1751 参照

rss - フィードをクロールする方法

私のアプリケーションは、RSS/Atom フィードを追跡し、新しいエントリをデータベースに保存する必要があります。私の質問は、フィード内のエントリが既にクロールされているかどうかを判断する最も信頼できる方法は何ですか?

Universal Feed Parserモジュールを使用してフィードを解析します。私の現在の実装では、エントリの値が記録された値より大きい場合、feed.entry[i].updated_parsedクロール時にの最新の値を記録し、そのエントリはデータベースに保存されます。updated_parsedここでの問題は、多くのフィードに発行日または更新日がないことです。

0 投票する
4 に答える
3866 参照

python - この再帰的なクロール機能を反復させるにはどうすればよいですか?

学術的およびパフォーマンス上の理由から、このクロール再帰 Web クロール機能 (指定されたドメイン内でのみクロールする) を考えると、それを反復的に実行するための最良のアプローチは何でしょうか? 現在実行すると、終了するまでに python は 1GB を超えるメモリを使用するようになり、共有環境での実行には受け入れられません。

0 投票する
5 に答える
9622 参照

c# - DirectoryEntry または任意のオブジェクト階層をループする - C#

現在、System.DirectoryServices 名前空間を使用して DirectoryEntry オブジェクトを作成し、階層全体をループして情報を収集するアプリケーションを開発しています。

階層内の各 DirectoryEntry オブジェクトの子エントリの数がわからないため、 Children プロパティを介してスパイダーに N 個のネストされたループを作成することはできません

これが私の擬似コードの例です:

私の質問は、オブジェクト内のサブディレクトリの数がわからない場合に情報を収集するためのループを作成する最良の方法は何ですか?

(これは、オブジェクト階層がわからない任意のタイプのオブジェクトに適用できます)

0 投票する
10 に答える
3597 参照

nlp - Crawling The Internet

I want to crawl for specific things. Specifically events that are taking place like concerts, movies, art gallery openings, etc, etc. Anything that one might spend time going to.

How do I implement a crawler?

I have heard of Grub (grub.org -> Wikia) and Heritix (http://crawler.archive.org/)

Are there others?

What opinions does everyone have?

-Jason

0 投票する
4 に答える
419 参照

web-crawler - Web サイトのスパイダリングの自動検出

Web サイトがコンテンツをスパイダーしているかどうかを検出するコードを作成することは可能ですか?

0 投票する
2 に答える
204 参照

linker - コンテンツへのリンクを自動的に見つける最良の方法は?

そこで、私が思いついたタスクがこちらです。少しの間、大量のコンテンツを持っているふりをしてください。自分のコンテンツにリンクしている Web サイトを確認したい。TrackBack や PingBack を調べることができることは知っていますが、それを処理できるツールを使用していない人はどうでしょうか?

元のドキュメントにリンクしているページを探す何らかの形式の Web クローラーが役立つように思われます。より大きなコミュニティへの私の質問は、ここで始めるための最良の方法は何ですか? TrackBack と PingBack は、私が思っている以上のことをしますか? 私が考えていることをすでに実行しているサービスやツールはありますか?

0 投票する
4 に答える
1883 参照

web-crawler - Web サイトのクロールとデータ マイニングに最適なオープン ソース ライブラリまたはアプリケーション

Web サイトのクロールと分析に最適な eopen-source ライブラリは何か知りたいです。1 つの例として、多数のサイトから情報を取得し、それらを自分のサイトに集約したいクローラー プロパティ エージェンシーがあります。そのためには、サイトをクロールしてプロパティ広告を抽出する必要があります。

0 投票する
4 に答える
9367 参照

open-source - Web スパイダーは Wget のスパイダーとどう違うのですか?

Wgetのマニュアルで次の一文が目に留まりました

wget のスパイダー オプションに関連する次のコード行が見つかりました。

抽象的にではなく、コードの違いを確認したいと思います。コード例が大好きです。

Web スパイダーと Wget のスパイダーのコードの違いは?