0

データベースやサービスなどから直接URL をNutchに取得することは可能ですか。データベースやサービスからデータが取得され、seed.txt に書き込まれる方法には興味がありません。

4

1 に答える 1

1

いいえ。これは、デフォルトの Nutch コードベースで直接行うことはできません。これを実現するには、 Injector.javaを変更する必要があります。

編集:

DBInputFormatを使用してみてください: SQL テーブルから入力データを読み取るInputFormatです。ここでInjectコードを変更する必要があります (以下のスニペットの 3 行目)。

JobConf sortJob = new NutchJob(getConf());
sortJob.setJobName("inject " + urlDir);
FileInputFormat.addInputPath(sortJob, urlDir);
sortJob.setMapperClass(InjectMapper.class);
于 2012-04-16T01:44:01.917 に答える