Nutch を使用してイントラネット サイトをクロールしています。
インデックス作成フェーズで xml ファイルのメタ データを抽出し (indexer.java のコードを変更しました)、ローカル モードで実行すると、必要なメタデータが得られました。
今、クラスター モードで Nutch を使用することを考えました (hadoop を使用)。クラスターで nutch をクロールすると、インデックスを取得できますが、ローカル モードで使用したメタデータは取得できません (Java の IO クラスを使用してメタをファイルに書き込みます)。Hadoop の場合、これを Hadoop ファイル システム io クラスに変更しました。それでも、メタを取得できません。
解決策はありますか、それとも何か不足していますか?
よろしくお願いします、ゲオ