1

url-1 を使用して、seed.txt で正常にクロールを実行すると、MySQL データベースでクロールされたデータを確認できました。ここで、seed.txt で url-1 を url-2 に置き換えて別の新しいクロールを実行しようとすると、新しいクロールがフェッチ ステップで開始され、フェッチしようとしていた URL は、seed.txt の古い置き換えられた URL のものです。古いURLをどこから取得したのかわかりません。

非表示のシード ファイルを確認しようとしましたが、見つからず、クロール コマンドを実行する NUTCH_HOME/runtime/local に urls/seed.txt フォルダーが 1 つしかありません。何が問題なのか教えてください。

4

1 に答える 1

3

クロール データベースには、クロールする URL のリストが含まれています。元のクロール ディレクトリを削除するか、新しいクロールの一部として新しいディレクトリを作成しない限り、元の URL リストが使用され、新しい URL で拡張されます。

于 2013-04-17T16:24:50.997 に答える