テキストのブロックを取得し、そこからすべての URL を解析して返す単純な正規表現を探しています。<a href>
URL は基本的にタグに置き換えられるため、 などhttp://google.com
になり<a href="http://google.com">http://google.com</a>
ます。したがって、非常に徹底したり、あらゆる種類のクレイジーな URL スキームや英語以外の文字を許可したりする必要はないと思います。
これは私が思いついた正規表現です:
%http[s]?://[A-z0-9/\.\-_]+%i
http:// または https:// で始まり、その後に次の文字の少なくとも 1 つが続くすべての文字列に一致します: Az 0-9 、ドット、スラッシュ (/)、アンダースコア、ハイフン (-)、大文字と小文字を区別しない
それを改善することはできますか?