c# - 正規表現はhtmlからすべてのホストを取得します

Question

1 つの正規表現ですべての URL を取得しようとしていますが、現在このパターンを使用しています。

/^(https?:\/\/)?([\da-z\.-]+)\.([a-z\.]{2,6})([\/\w \.-]*)*\/?$/

ただし、その正規表現はホストではなくページ/ファイルを返します。したがって、2 番目の正規表現を実行する代わりに、ここの誰かが助けてくれることを願っています

これは戻りますhttp://www.yoursite.com/index.html

戻ろうとしてyoursite.comいます。

また、正規表現は html から解析され、後でホストがチェックされるため、100% の精度は重要ではありません。

score 0 · Accepted Answer

yoursite.comサンプルテキストからだけキャプチャするには、次のhttp://www.yoursite.com/index?querystring=value 式を使用できますが、これは文字列を検証しません。

^(https?:\/\/)?(?:[^.\/?]*[.])?([^.\/?]*[.][^.\/?]*)

ここに画像の説明を入力

2 に答える 2