データベースやサービスなどから直接URL をNutchに取得することは可能ですか。データベースやサービスからデータが取得され、seed.txt に書き込まれる方法には興味がありません。
質問する
612 次
1 に答える
1
いいえ。これは、デフォルトの Nutch コードベースで直接行うことはできません。これを実現するには、 Injector.javaを変更する必要があります。
編集:
DBInputFormatを使用してみてください: SQL テーブルから入力データを読み取るInputFormatです。ここでInjectコードを変更する必要があります (以下のスニペットの 3 行目)。
JobConf sortJob = new NutchJob(getConf());
sortJob.setJobName("inject " + urlDir);
FileInputFormat.addInputPath(sortJob, urlDir);
sortJob.setMapperClass(InjectMapper.class);
于 2012-04-16T01:44:01.917 に答える