regex - メタロボットの noindex タグを見つけるための正規表現

質問する 2014-05-10T10:32:43.743

732 次

ページのソースコードに robots noindex メタタグが含まれているかどうかを確認する必要があり、できるだけ多くの異なる HTML 構文バリアントをキャッチしたいと考えています。

最初に get_meta_tags() 関数を試しましたが、いくつかの制限があるため、preg_match を使用することにしました。

この正規表現を試しました：

"/<meta\s+name\s*=\s*[\"'](.*?)[\"']\s*content\s*=\s*[\"'].*?noindex.*?[\"']\s*\/?>/i"

ただし、noindex メタタグが次のような場合 (コンテンツ部分が最初) は失敗します。

<meta content="follow, index"  name="robots" />

私の目標を達成するためのより適切な正規表現を誰かが共有できますか?

regex - メタ ロボットの noindex タグを見つけるための正規表現