バックエンドとしてHBaseを使用してNutch 2.3をセットアップし、SolrへのインデックスとSolr重複排除を含むクロールを実行しています。
最近、Solr インデックスに不要な Web ページが含まれていることに気付きました。
Nutch にこれらの Web ページを無視させるために、次のメタタグを設定しました。
<meta name="robots" content="noindex,follow">
Apache Nutch の公式 Web サイトにアクセスしたところ、次のように説明されています。
サーバー上の /robots.txt ファイルを編集する権限がない場合でも、ページをインデックスに登録したり、リンクをたどったりしないようにロボットに指示できます。これの標準的なメカニズムは、ロボットの META タグです。
Web で回答を検索したところ、nutch-site.xml のプロパティとして設定Protocol.CHECK_ROBOTS
または設定するための推奨事項が見つかりました。protocol.plugin.check.robots
これらのどれも機能していないようです。
現在、Nutch 2.3 はnoindex
ルールを無視するため、コンテンツを外部データストア、つまり Solr にインデックス付けします。
問題は、Nutch 2.3 をロボットのメタタグを尊重するように構成するにはどうすればよいかということです。
また、Nutch 2.3 が以前にロボット メタタグを無視するように構成されていて、以前のクロール サイクル中にその Web ページのインデックスが作成された場合。robots メタタグのルールが正しい場合、そのページは今後のクロールで Solr インデックスから削除されますか?