0

特定のドメイン (「コンピューター サイエンス」) のすべての最新記事を、特定の一連の Web サイト (「ScienceDirect」など)から取得するプログラムを構築することに関心があります。ご存知のように、一部の Web サイトでは、次のように各研究論文のページを公開しています。http://www.sciencedirect.com/science/article/pii/S108480451400085X 各ページには、特定の論文の情報が含まれています。

この目的に最適なツール (オープンソース)は何ですか? 一般的な Web クローラー (Apache Nutch など) は、Web 全体をクロールするための一般的なフレームワークを提供しますが、私の場合は、Web サイト固有のクローラーが必要です。

4

0 に答える 0