0

ナットを使用しています。インターネット Web サイトの代わりに共有ディスクをクロールする予定です。

私が心配していることの 1 つは、それをクロールするとそのディスクが非常に遅くなることです。共有ディスクを停止せずにクロールしないようにする方法は?

4

1 に答える 1

1

conf/nutch-site.xml で、スレッド数とリクエスト間の待機時間を設定できます。

これらのプロパティをオーバーライドして、使いやすい値に設定してみてください。

<property>
  <name>fetcher.threads.fetch</name>
  <value>10</value>
  <description>The number of FetcherThreads the fetcher should use.
  This is also determines the maximum number of requests that are
  made at once (each FetcherThread handles one connection). The total
  number of threads running in distributed mode will be the number of
  fetcher threads * number of nodes as fetcher has one map task per node.
  </description>
</property>

<property>
  <name>fetcher.threads.per.queue</name>
  <value>1</value>
  <description>This number is the maximum number of threads that
    should be allowed to access a queue at one time.
   </description>
</property>
于 2013-10-16T22:23:12.733 に答える