シードのみのドメインに属するように、crawler4j がページにアクセスするようにします。シードには複数のドメインがあります。どうすればいいですか?
シード URL を追加するとします。
- www.google.com
- www.yahoo.com
- www.wikipedia.com
今、私はクロールを開始していますが、私のクローラーが (のようにshouldVisit()
) 上記の 3 つのドメインのページのみにアクセスするようにしたいと考えています。明らかに外部リンクがありますが、クローラーをこれらのドメインのみに制限したいと考えています。サブドメイン、サブフォルダーは問題ありませんが、これらのドメインの外では問題ありません。