Apache Nutch を使用して Web サイトをクロールしています。クロール中、 http ://www.youtube.com/..so on...、http: //www.twitter.com/so on..などの複数のURLパターンをnutchに無視させたい.
特定の URL をクロールするように regex-urlfilter.txt ファイルを構成する方法を知っています。
しかし、特定の URL パターンを無視するように nutch を設定する方法がわかりません。
Apache Nutch を使用して Web サイトをクロールしています。クロール中、 http ://www.youtube.com/..so on...、http: //www.twitter.com/so on..などの複数のURLパターンをnutchに無視させたい.
特定の URL をクロールするように regex-urlfilter.txt ファイルを構成する方法を知っています。
しかし、特定の URL パターンを無視するように nutch を設定する方法がわかりません。