0

私はしばらく Nutch 2.x で遊んでいます。Nutch 2.x のチュートリアルに従って、この投稿でアドバイスされているようにセットアップしましたが、まだわかりません。どんな助けも大歓迎です。

チュートリアルに従って INJECT コマンドを使用すると、seeds.txt にある 2 つの URL が挿入されます。

nutch inject ../local/urls/seed.txt 

ただし、スクリプトを実行すると、どの URL にもアクセスしません。

bin/crawl ../local/urls/seed.txt TestCrawl *ttp://l*calhost:8983/solr 2
4

2 に答える 2

0

Nutch 2.2.1 - Hbase-0.94.10 と Solr 4.4.0 の完全な新規インストールを再開しました。これは、チュートリアルで言及されているバージョンが何年も前のものであるため、メーリングリストの誰かがアドバイスしたとおりです。私が得ているエラーは次のとおりです。

[root@localhost local]# bin/nutch inject /urls/seed.txt InjectorJob: 2013-08-11 17:59:32 から InjectorJob: Injecting urlDir: /urls/seed.txt InjectorJob: org.apache.gora. util.GoraException: java.lang.RuntimeException: java.lang.IllegalArgumentException: ホストではありません: ポートのペア: �2249@localhost.localdomainlocalhost,45431,1376235201648

于 2013-08-11T16:02:47.987 に答える