1

Nutch を使用してイントラネット サイトをクロールしています。

インデックス作成フェーズで xml ファイルのメタ データを抽出し (indexer.java のコードを変更しました)、ローカル モードで実行すると、必要なメタデータが得られました。

今、クラスター モードで Nutch を使用することを考えました (hadoop を使用)。クラスターで nutch をクロールすると、インデックスを取得できますが、ローカル モードで使用したメタデータは取得できません (Java の IO クラスを使用してメタをファイルに書き込みます)。Hadoop の場合、これを Hadoop ファイル システム io クラスに変更しました。それでも、メタを取得できません。

解決策はありますか、それとも何か不足していますか?

よろしくお願いします、ゲオ

4

1 に答える 1

0

インデックス作成フェーズで xml ファイルのメタ データを抽出し (indexer.java のコードを変更しました)、ローカル モードで実行すると、必要なメタデータが得られました。

発生した問題が示すように、インデクサーを変更することは最良の選択肢ではありません

あなたは出来る :

  • インジェクションの一部としてメタデータを追加します (シードに対してのみ実行する場合)
  • または、カスタム インデックス作成プラグインを作成します。たとえば、conf/ のファイルから XML md をロードするように取得します。

conf/ の内容がジョブ ファイルに追加され、クラスターのノード全体に分散されます。コードには、インデックス作成プラグインの例がかなりあります。

Nutch のユーザー リストを使用して、より多くの視聴者を獲得する必要があるのではないでしょうか?

于 2011-01-10T15:38:15.987 に答える