ナットを使用しています。インターネット Web サイトの代わりに共有ディスクをクロールする予定です。
私が心配していることの 1 つは、それをクロールするとそのディスクが非常に遅くなることです。共有ディスクを停止せずにクロールしないようにする方法は?
ナットを使用しています。インターネット Web サイトの代わりに共有ディスクをクロールする予定です。
私が心配していることの 1 つは、それをクロールするとそのディスクが非常に遅くなることです。共有ディスクを停止せずにクロールしないようにする方法は?
conf/nutch-site.xml で、スレッド数とリクエスト間の待機時間を設定できます。
これらのプロパティをオーバーライドして、使いやすい値に設定してみてください。
<property>
<name>fetcher.threads.fetch</name>
<value>10</value>
<description>The number of FetcherThreads the fetcher should use.
This is also determines the maximum number of requests that are
made at once (each FetcherThread handles one connection). The total
number of threads running in distributed mode will be the number of
fetcher threads * number of nodes as fetcher has one map task per node.
</description>
</property>
<property>
<name>fetcher.threads.per.queue</name>
<value>1</value>
<description>This number is the maximum number of threads that
should be allowed to access a queue at one time.
</description>
</property>