java - Nutch - 新たに発見されたドメインを取得する

Question

Nutch 1.6 を使用して Web をクロールしています。ナットの設定によると、シードリストとドメイン url-filter を指定して、指定されたドメイン間をトラバースする必要があります。ただし、拡張子が co.uk の場合、新しく発見された URL を取得したい (この拡張子のみ) 新しく発見された URL のドメインをファイル (または db など) に追加し、クローラーを停止し、更新することで管理できます。ドメイン url-filters とシードリストを削除してから再起動します。しかし、クローラーを停止せずに動的に行うにはどうすればよいでしょうか?

前もって感謝します。

PS : co.uk ドメイン拡張子は単なる例です。複数の拡張子を追加して許可することもできます。

score 0 · Accepted Answer

とった。

186 ～ 189 行目のDomainURLFilter ソースコードとして、「gov.uk」のようなサフィックスを domain-urlfilter.txt に追加できます。

  if (domainSet.contains(suffix) || domainSet.contains(domain)
    || domainSet.contains(host)) {
    return url;
  }

サフィックス、ドメイン、およびホストをチェックします。

また、ドメイン URL を HBase テーブルに保持し、DomainURLFilter を使用する代わりに独自のフィルタープラグインを介して管理することもできます。

java - Nutch - 新たに発見されたドメインを取得する

1 に答える 1

Related

Reference