lucene - Nutch - 小さなパッチでクロールする方法は?

Question

小さなパッチでは、Nutch を這わせることができません。パラメーター -depth 7 および -topN 10000 を指定したbin/nutch のクロールコマンドで開始します。私のHDDが空になったときだけ終了します。私は何をする必要がありますか：

アウトリンクをさらに進める可能性があるので、シードのクロールを開始します。
20000 ページをクロールし、インデックスに登録します。
さらに 20000 ページをクロールしてインデックスを作成し、最初のインデックスとマージします。
ステップ 3 を n 回ループします。

wiki で見つかったスクリプトでも試してみましたが、見つかったすべてのスクリプトはそれ以上進みません。もう一度実行すると、最初からすべてが実行されます。スクリプトの最後には、クロールを開始したときと同じインデックスがあります。しかし、私はクロールを続ける必要があります。

score 10 · Accepted Answer

Nutch の生成/取得/更新のサイクルを理解する必要があります。

サイクルの生成ステップでは、クロールデータベースから URL ( topNパラメーターで最大数を設定できます) を取得し、新しいセグメントを生成します。最初は、クロールデータベースにはシード URL のみが含まれます。

fetch ステップは実際のクロールを行います。ページの実際のコンテンツは、セグメントに格納されます。

最後に、更新ステップは、取得の結果でクロールデータベースを更新します (新しい URL の追加、URL の最終取得時刻の設定、URL の取得の http ステータスコードの設定など)。

クロールツールは、このサイクルを n 回実行します。深さパラメーターで構成できます。

すべてのサイクルが完了すると、クロールツールは起動元のフォルダー内のすべてのインデックスを削除し、すべてのセグメントとクロールデータベースから新しいインデックスを作成します。

したがって、求めていることを実行するには、おそらくクロールツールを使用するのではなく、クロールツールがバックグラウンドで実行している個々の Nutch コマンドを呼び出す必要があります。これにより、クロールの回数を制御でき、反復ごとにインデックスが常にマージされ、削除されないようにすることもできます。

ここで定義するスクリプトから始めて、必要に応じて変更することをお勧めします。

lucene - Nutch - 小さなパッチでクロールする方法は?

1 に答える 1

Related

Reference