2

バックエンドとしてHBaseを使用してNutch 2.3をセットアップし、SolrへのインデックスとSolr重複排除を含むクロールを実行しています。

最近、Solr インデックスに不要な Web ページが含まれていることに気付きました。

Nutch にこれらの Web ページを無視させるために、次のメタタグを設定しました。

<meta name="robots" content="noindex,follow"> 

Apache Nutch の公式 Web サイトにアクセスしたところ、次のように説明されています。

サーバー上の /robots.txt ファイルを編集する権限がない場合でも、ページをインデックスに登録したり、リンクをたどったりしないようにロボットに指示できます。これの標準的なメカニズムは、ロボットの META タグです。

Web で回答を検索したところ、nutch-site.xml のプロパティとして設定Protocol.CHECK_ROBOTSまたは設定するための推奨事項が見つかりました。protocol.plugin.check.robotsこれらのどれも機能していないようです。

現在、Nutch 2.3 はnoindexルールを無視するため、コンテンツを外部データストア、つまり Solr にインデックス付けします。

問題は、Nutch 2.3 をロボットのメタタグを尊重するように構成するにはどうすればよいかということです。

また、Nutch 2.3 が以前にロボット メタタグを無視するように構成されていて、以前のクロール サイクル中にその Web ページのインデックスが作成された場合。robots メタタグのルールが正しい場合、そのページは今後のクロールで Solr インデックスから削除されますか?

4

1 に答える 1

1

Apache Nutch 2.3 が robots メタタグ ルールを尊重しないという問題を克服するためのプラグインを作成しましたnoindex。metarobots プラグインは、Nutch にインデックス中に適格なドキュメントを強制的に破棄させます。これにより、適格なドキュメントが外部データストア (Solr) にインデックス付けされるのを防ぎます。

注意:このプラグインは、ロボット メタタグ ルールを含むドキュメントのインデックス作成を防ぎnoindexます。以前に外部データストアにインデックス付けされたドキュメントは削除されません。

手順については、このリンクにアクセスしてください

于 2016-02-10T12:08:38.140 に答える