Nutch v。1.6を実行していて、特定のサイトを正しくクロールしていますが、ファイルの構文が正しくないようですNUTCH_ROOT/conf/regex-urlfilter.txt
。
クロールしたいサイトのURLは次のようになります。
http://www.example.com/foo.cfm
そのページには、次のパターンに一致する多数のリンクがあります。
http://www.example.com/foo.cfm/Bar_-_Foo/Extra/EX/20817/ID=6976
上記の2番目の例にも一致するリンクをクロールしたいと思います。私のregex-urlfilter.txt
中には次のものがあります:
+^http://www.example.com/foo.cfm$
+^http://www.example.com/foo.cfm/(.+)*$
Nutchは最初のフィルターと一致し、正しくクロールしますが、他のフィルターを使用してリンクを取得していないようです。上記の2番目のようなURLをNutchにクロールさせるにはどうすればよいですか?
私は運が悪かったので次のことを試みました:
+^http://www.example.com/foo.cfm/(.+)*$
+^http://www.example.com/foo.cfm/(.)*$
+^http://www.example.com/foo.cfm/.+$
+^http://www.example.com/foo.cfm/(.*)*$
私のNUTCH_ROOT/urls/nutch
中には:
http://www.example.com/foo.cfm/