1 つの正規表現ですべての URL を取得しようとしていますが、現在このパターンを使用しています。
/^(https?:\/\/)?([\da-z\.-]+)\.([a-z\.]{2,6})([\/\w \.-]*)*\/?$/
ただし、その正規表現はホストではなくページ/ファイルを返します。したがって、2 番目の正規表現を実行する代わりに、ここの誰かが助けてくれることを願っています
これは戻りますhttp://www.yoursite.com/index.html
戻ろうとしてyoursite.com
います。
また、正規表現は html から解析され、後でホストがチェックされるため、100% の精度は重要ではありません。