ページのソース コードに robots noindex メタ タグが含まれているかどうかを確認する必要があり、できるだけ多くの異なる HTML 構文バリアントをキャッチしたいと考えています。
最初に get_meta_tags() 関数を試しましたが、いくつかの制限があるため、preg_match を使用することにしました。
この正規表現を試しました:
"/<meta\s+name\s*=\s*[\"'](.*?)[\"']\s*content\s*=\s*[\"'].*?noindex.*?[\"']\s*\/?>/i"
ただし、noindex メタ タグが次のような場合 (コンテンツ部分が最初) は失敗します。
<meta content="follow, index" name="robots" />
私の目標を達成するためのより適切な正規表現を誰かが共有できますか?