web-crawler - 特定の一連の Web サイトを使用して、特定のドメインの最新の記事をクロールする方法は?

翻译自：https://stackoverflow.com/questions/26232688 2014-10-07T09:21:19.700

345 次

特定のドメイン (「コンピューターサイエンス」) のすべての最新記事を、特定の一連の Web サイト (「ScienceDirect」など)から取得するプログラムを構築することに関心があります。ご存知のように、一部の Web サイトでは、次のように各研究論文のページを公開しています。http://www.sciencedirect.com/science/article/pii/S108480451400085X 各ページには、特定の論文の情報が含まれています。

この目的に最適なツール (オープンソース)は何ですか? 一般的な Web クローラー (Apache Nutch など) は、Web 全体をクロールするための一般的なフレームワークを提供しますが、私の場合は、Web サイト固有のクローラーが必要です。

web-crawler - 特定の一連の Web サイトを使用して、特定のドメインの最新の記事をクロールする方法は?

0 に答える 0

Related

Reference