solr - robots メタタグを尊重するように Apache Nutch 2.3 を構成するにはどうすればよいですか?

Question

バックエンドとしてHBaseを使用してNutch 2.3をセットアップし、SolrへのインデックスとSolr重複排除を含むクロールを実行しています。

最近、Solr インデックスに不要な Web ページが含まれていることに気付きました。

Nutch にこれらの Web ページを無視させるために、次のメタタグを設定しました。

<meta name="robots" content="noindex,follow">

Apache Nutch の公式 Web サイトにアクセスしたところ、次のように説明されています。

サーバー上の /robots.txt ファイルを編集する権限がない場合でも、ページをインデックスに登録したり、リンクをたどったりしないようにロボットに指示できます。これの標準的なメカニズムは、ロボットの META タグです。

Web で回答を検索したところ、nutch-site.xml のプロパティとして設定Protocol.CHECK_ROBOTSまたは設定するための推奨事項が見つかりました。protocol.plugin.check.robotsこれらのどれも機能していないようです。

現在、Nutch 2.3 はnoindexルールを無視するため、コンテンツを外部データストア、つまり Solr にインデックス付けします。

問題は、Nutch 2.3 をロボットのメタタグを尊重するように構成するにはどうすればよいかということです。

また、Nutch 2.3 が以前にロボットメタタグを無視するように構成されていて、以前のクロールサイクル中にその Web ページのインデックスが作成された場合。robots メタタグのルールが正しい場合、そのページは今後のクロールで Solr インデックスから削除されますか?

score 1 · Accepted Answer

Apache Nutch 2.3 が robots メタタグルールを尊重しないという問題を克服するためのプラグインを作成しましたnoindex。metarobots プラグインは、Nutch にインデックス中に適格なドキュメントを強制的に破棄させます。これにより、適格なドキュメントが外部データストア (Solr) にインデックス付けされるのを防ぎます。

注意:このプラグインは、ロボットメタタグルールを含むドキュメントのインデックス作成を防ぎnoindexます。以前に外部データストアにインデックス付けされたドキュメントは削除されません。

手順については、このリンクにアクセスしてください

solr - robots メタタグを尊重するように Apache Nutch 2.3 を構成するにはどうすればよいですか?

1 に答える 1

Related

Reference