java - URL をシード URL ドメインのみに制限するcrawler4j

Question

シードのみのドメインに属するように、crawler4j がページにアクセスするようにします。シードには複数のドメインがあります。どうすればいいですか？

シード URL を追加するとします。

www.google.com
www.yahoo.com
www.wikipedia.com

今、私はクロールを開始していますが、私のクローラーが (のようにshouldVisit()) 上記の 3 つのドメインのページのみにアクセスするようにしたいと考えています。明らかに外部リンクがありますが、クローラーをこれらのドメインのみに制限したいと考えています。サブドメイン、サブフォルダーは問題ありませんが、これらのドメインの外では問題ありません。

score 0 · Accepted Answer

シード URL と同じドメインを持つ URL のみにクローラーを制限しようとしている場合は、次のようにします。

シード URL からドメイン名を抽出します。
ドメインがセットに含まれていない URL を除外するメソッドを使用して、( を拡張するWebCrawler)クローラークラスを記述します。shouldVisit
コントローラーを構成し、シードを追加して、通常の方法で開始します...こちらの例に従ってください。

java - URL をシード URL ドメインのみに制限するcrawler4j

2 に答える 2

Related

Reference