1

シードのみのドメインに属するように、crawler4j がページにアクセスするようにします。シードには複数のドメインがあります。どうすればいいですか?

シード URL を追加するとします。

  • www.google.com
  • www.yahoo.com
  • www.wikipedia.com

今、私はクロールを開始していますが、私のクローラーが (のようにshouldVisit()) 上記の 3 つのドメインのページのみにアクセスするようにしたいと考えています。明らかに外部リンクがありますが、クローラーをこれらのドメインのみに制限したいと考えています。サブドメイン、サブフォルダーは問題ありませんが、これらのドメインの外では問題ありません。

4

2 に答える 2

0

シード URL と同じドメインを持つ URL のみにクローラーを制限しようとしている場合は、次のようにします。

  1. シード URL からドメイン名を抽出します。

  2. ドメインがセットに含まれていない URL を除外するメソッドを使用して、( を拡張するWebCrawler)クローラー クラスを記述します。shouldVisit

  3. コントローラーを構成し、シードを追加して、通常の方法で開始します...こちらの例に従ってください。

于 2013-11-09T11:34:32.047 に答える