Nutch 1.6 を使用して Web をクロールしています。ナットの設定によると、シードリストとドメイン url-filter を指定して、指定されたドメイン間をトラバースする必要があります。ただし、拡張子が co.uk の場合、新しく発見された URL を取得したい (この拡張子のみ) 新しく発見された URL のドメインをファイル (または db など) に追加し、クローラーを停止し、更新することで管理できます。ドメイン url-filters とシードリストを削除してから再起動します。しかし、クローラーを停止せずに動的に行うにはどうすればよいでしょうか?
前もって感謝します。
PS : co.uk ドメイン拡張子は単なる例です。複数の拡張子を追加して許可することもできます。