フリーテキスト内のURLと適切に一致する正規表現を作成するためのサポートが必要です。
- 図式
- 次のいずれか:ftp、http、https(ftpsはプロトコルですか?)
- オプションのユーザー(およびオプションのパス)
- ホスト(IDNをサポート)
- wwwおよびサブドメインのサポート(IDNのサポートあり)
- TLDの基本的なフィルタリング(
[a-zA-Z]{2,6}
私は十分だと思います)
- オプションのポート番号
- パス(オプション、Unicode文字をサポート)
- クエリ(オプション、Unicode文字をサポート)
- フラグメント(オプション、Unicode文字をサポート)
これが私がサブドメインについて知ることができたものです:
「サブドメイン」は、絶対的な依存関係ではなく、相対的な依存関係を表します。たとえば、wikipedia.orgはorgドメインのサブドメインを構成し、en.wikipedia.orgはドメインwikipedia.orgのサブドメインを構成します。理論的には、この細分化は127レベルまで下がることができ、ドメイン名全体が全長255文字を超えない限り、各DNSラベルには最大63文字を含めることができます。
ドメイン名自体に関しては、信頼できるソースは見つかりませんでしたが、非IDNの正規表現(IDN互換バージョンの記述方法がわかりません)は次のようなものだと思います。
[0-9a-zA-Z][0-9a-zA-Z\-]{2,62}
誰かがこの正規表現で私を助けたり、良い方向を教えてくれますか?