2

ユーザーが互いに URL を送信できるチャット ビューがあります。URL の場合、ユーザーがリンクを押して Web ビューを開くようにしたいと考えています。

RegexKitLite を使用する IFTweetLabel を使用しています。現在利用できる唯一のサポートは、URL が http/https で始まる場合です。www.nytimes.com などの http なしのリンクをサポートしたいのですが、「www」なしでも nytimes.com をサポートしたいと考えています。(および他の拡張機能の束)。

これは、http/s プレフィックス reg exp です。

@"([hH][tT][tT][pP][sS]?:\\/\\/[^ ,'\">\\]\\)]*[^\\. ,'\">\\]\\)])

他の要件に答えるために必要な他の正規表現を教えてもらえますか?

This oneを使用してみましたが、目的の C コードに追加すると多くの問題が発生します。

ありがとう

4

3 に答える 3

6

以下は、John Grubers URL Matching Regexです。

(?i)\b(?:[a-z][\w-]+:(?:/{1,3}|[a-z0-9%])|www\d{0,3}[.]|[a-z0-9.\-]+[.][a-z]{2,4}/)(?:[^\s()<>]+|\(([^\s()<>]+|(\([^\s()<>]+\)))*\))+(?:\(([^\s()<>]+|(\([^\s()<>]+\)))*\)|[^\s`!()\[\]{};:'".,<>?«»“”‘’])

以下は、私が持っていた他のいくつかの正規表現と Grubers 正規表現のかなりの部分をブレンドして思いついた正規表現です。

(?i)\b(?:(?:[a-z][\w\-]+://(?:\S+?(?::\S+?)?\@)?)|(?:(?:[a-z0-9\-]+\.)+[a-z]{2,4}))(?:[^\s()<>]+|\((?:[^\s()<>]+|(?:\([^\s()<>]*\)))*\))*(?<![\s`!()\[\]{};:'".,<>?«»“”‘’])

以下は、RegexKitLite を介して、各正規表現がサンプル テキストに対して何と一致するかを示すサンプル プログラムです。

http://www.stackoverflow.comを見ました か? または http://www.stackoverflow.com/ ?

そして、www.stackoverflow.com/index とともに www.stackoverflow.com/ があります。

余分なstackoverflow.comを備えたstackoverflow.comのようなものでしょうか?または「stackoverflow.com」?

おそらく、jobs.stackoverflow.com、または「http://twitter.com/#!/CHOCKENBERRY」、CHOCKLOCK!!

ファイル @file:///Users/johne/rkl/rkl.html#RegexKitLiteCookbook?

多分 http://www.yahoo.com/index///i.html ! http://www.yahoo.com/////xyz.html ?!

コード:

#import <Foundation/Foundation.h>
#import "RegexKitLite.h"

int main(int argc, char *argv[]) {
  NSAutoreleasePool *pool = [[NSAutoreleasePool alloc] init];

  NSString *urlRegex = @"(?i)\\b(?:(?:[a-z][\\w\\-]+://(?:\\S+?(?::\\S+?)?\\@)?)|(?:(?:[a-z0-9\\-]+\\.)+[a-z]{2,4}))(?:[^\\s()<>]+|\\((?:[^\\s()<>]+|(?:\\([^\\s()<>]*\\)))*\\))*(?<![\\s`!()\\[\\]{};:'\".,<>?«»“”‘’])";

  // John Gruber's URL matching regex from http://daringfireball.net/2010/07/improved_regex_for_matching_urls
  NSString *gruberURLRegex = @"(?i)\\b(?:[a-z][\\w-]+:(?:/{1,3}|[a-z0-9%])|www\\d{0,3}[.]|[a-z0-9.\\-]+[.][a-z]{2,4}/)(?:[^\\s()<>]+|\\(([^\\s()<>]+|(\\([^\\s()<>]+\\)))*\\))+(?:\\(([^\\s()<>]+|(\\([^\\s()<>]+\\)))*\\)|[^\\s`!()\\[\\]{};:'\".,<>?«»“”‘’])";

  NSString *urlString = @"Did you see http://www.stackoverflow.com?  Or http://www.stackoverflow.com/?\n\nAnd then there is www.stackoverflow.com/, along with www.stackoverflow.com/index.\n\nMaybe something like stackoverflow.com with extra stackoverflow.com?  Or \"stackoverflow.com\"?\n\nPerhaps jobs.stackoverflow.com, or 'http://twitter.com/#!/CHOCKENBERRY', the CHOCKLOCK!!\n\nFile @file:///Users/johne/rkl/rkl.html#RegexKitLiteCookbook?\n\nMaybe http://www.yahoo.com/index///i.html!  http://www.yahoo.com/////xyz.html?!";

  NSLog(@"String :\n\n%@\n\n", urlString);

  NSLog(@"Matches: %@\n", [urlString componentsMatchedByRegex:urlRegex]);

  NSLog(@"Gruber URL Regex Matches: %@\n", [urlString componentsMatchedByRegex:gruberURLRegex]);

  [pool release]; pool = NULL;
  return(0);
}

コンパイル:

shell% gcc -o url url.m RegexKitLite.m -framework Foundation -licucore

実行時:

shell% ./url
2011-05-27 20:32:58.204 url[25520:903] String :

Did you see http://www.stackoverflow.com?  Or http://www.stackoverflow.com/?

And then there is www.stackoverflow.com/, along with www.stackoverflow.com/index.

Maybe something like stackoverflow.com with extra stackoverflow.com?  Or "stackoverflow.com"?

Perhaps jobs.stackoverflow.com, or 'http://twitter.com/#!/CHOCKENBERRY', the CHOCKLOCK!!

File @file:///Users/johne/rkl/rkl.html#RegexKitLiteCookbook?

Maybe http://www.yahoo.com/index///i.html!  http://www.yahoo.com/////xyz.html?!

2011-05-27 20:32:58.211 url[25520:903] Matches: (
    "http://www.stackoverflow.com",
    "http://www.stackoverflow.com/",
    "www.stackoverflow.com/",
    "www.stackoverflow.com/index",
    "stackoverflow.com",
    "stackoverflow.com",
    "stackoverflow.com",
    "jobs.stackoverflow.com",
    "http://twitter.com/#!/CHOCKENBERRY",
    "file:///Users/johne/rkl/rkl.html#RegexKitLiteCookbook",
    "http://www.yahoo.com/index///i.html",
    "http://www.yahoo.com/////xyz.html"
)
2011-05-27 20:32:58.213 url[25520:903] Gruber URL Regex Matches: (
    "http://www.stackoverflow.com",
    "http://www.stackoverflow.com/",
    "www.stackoverflow.com/",
    "www.stackoverflow.com/index",
    "http://twitter.com/#!/CHOCKENBERRY",
    "file:///Users/johne/rkl/rkl.html#RegexKitLiteCookbook",
    "http://www.yahoo.com/index///i.html",
    "http://www.yahoo.com/////xyz.html"
)

EDIT 2011/05/27:正規表現に小さな変更を加えて、( )括弧が正しく一致しない問題を修正しました。

EDIT 2011/05/27:上記の正規表現がうまく処理できないいくつかの追加のコーナー ケースが見つかりました。更新された正規表現:

(?i)\b(?:[a-z][\w\-]+://(?:\S+?(?::\S+?)?\@)?)?(?:(?:(?<!:/|\.)(?:(?:[a-z0-9\-]+\.)+[a-z]{2,4}(?![a-z]))|(?<=://)/))(?:(?:[^\s()<>]+|\((?:[^\s()<>]+|(?:\([^\s()<>]*\)))*\))*)(?<![\s`!()\[\]{};:'".,<>?«»“”‘’])

... Obj-C 文字列として:

@"(?i)\\b(?:[a-z][\\w\\-]+://(?:\\S+?(?::\\S+?)?\\@)?)?(?:(?:(?<!:/|\\.)(?:(?:[a-z0-9\\-]+\\.)+[a-z]{2,4}(?![a-z]))|(?<=://)/))(?:(?:[^\\s()<>]+|\\((?:[^\\s()<>]+|(?:\\([^\\s()<>]*\\)))*\\))*)(?<![\\s`!()\\[\\]{};:'\".,<>?«»“”‘’])";

OP は、末尾の TLD が「有効」であることを確認する方法についても尋ねました。以下は、現在有効なすべての TLD (2011/05/27 時点)を含む Obj-C 文字列形式の同じ正規表現です。

@"(?i)\\b(?:[a-z][\\w\\-]+://(?:\\S+?(?::\\S+?)?\\@)?)?(?:(?:(?<!:/|\\.)(?:(?:[a-z0-9\\-]+\\.)+(?:(ac|ad|ae|aero|af|ag|ai|al|am|an|ao|aq|ar|arpa|as|asia|at|au|aw|ax|az|ba|bb|bd|be|bf|bg|bh|bi|biz|bj|bm|bn|bo|br|bs|bt|bv|bw|by|bz|ca|cat|cc|cd|cf|cg|ch|ci|ck|cl|cm|cn|co|com|coop|cr|cu|cv|cx|cy|cz|de|dj|dk|dm|do|dz|ec|edu|ee|eg|er|es|et|eu|fi|fj|fk|fm|fo|fr|ga|gb|gd|ge|gf|gg|gh|gi|gl|gm|gn|gov|gp|gq|gr|gs|gt|gu|gw|gy|hk|hm|hn|hr|ht|hu|id|ie|il|im|in|info|int|io|iq|ir|is|it|je|jm|jo|jobs|jp|ke|kg|kh|ki|km|kn|kp|kr|kw|ky|kz|la|lb|lc|li|lk|lr|ls|lt|lu|lv|ly|ma|mc|md|me|mg|mh|mil|mk|ml|mm|mn|mo|mobi|mp|mq|mr|ms|mt|mu|museum|mv|mw|mx|my|mz|na|name|nc|ne|net|nf|ng|ni|nl|no|np|nr|nu|nz|om|org|pa|pe|pf|pg|ph|pk|pl|pm|pn|pr|pro|ps|pt|pw|py|qa|re|ro|rs|ru|rw|sa|sb|sc|sd|se|sg|sh|si|sj|sk|sl|sm|sn|so|sr|st|su|sv|sy|sz|tc|td|tel|tf|tg|th|tj|tk|tl|tm|tn|to|tp|tr|travel|tt|tv|tw|tz|ua|ug|uk|us|uy|uz|va|vc|ve|vg|vi|vn|vu|wf|ws|xn--0zwm56d|xn--11b5bs3a9aj6g|xn--3e0b707e|xn--45brj9c|xn--80akhbyknj4f|xn--90a3ac|xn--9t4b11yi5a|xn--clchc0ea0b2g2a9gcd|xn--deba0ad|xn--fiqs8s|xn--fiqz9s|xn--fpcrj9c3d|xn--fzc2c9e2c|xn--g6w251d|xn--gecrj9c|xn--h2brj9c|xn--hgbk6aj7f53bba|xn--hlcj6aya9esc7a|xn--j6w193g|xn--jxalpdlp|xn--kgbechtv|xn--kprw13d|xn--kpry57d|xn--lgbbat1ad8j|xn--mgbaam7a8h|xn--mgbayh7gpa|xn--mgbbh1a71e|xn--mgbc0a9azcg|xn--mgberp4a5d4ar|xn--o3cw4h|xn--ogbpf8fl|xn--p1ai|xn--pgbs0dh|xn--s9brj9c|xn--wgbh1c|xn--wgbl6a|xn--xkc2al3hye2a|xn--xkc2dl3a5ee0h|xn--yfro4i67o|xn--ygbi2ammx|xn--zckzah|xxx|ye|yt|za|zm|zw))(?![a-z]))|(?<=://)/))(?:(?:[^\\s()<>]+|\\((?:[^\\s()<>]+|(?:\\([^\\s()<>]*\\)))*\\))*)(?<![\\s`!()\\[\\]{};:'\".,<>?«»“”‘’])";
于 2011-05-28T00:40:17.210 に答える
3

これには正規表現を使用したくありません。

あなたは、を望んNSDataDetectorでいます、そしてそれはあなたのためにそれらすべてを見つけるでしょう。

于 2011-05-28T02:19:29.527 に答える
3

これは、 http://example.orgと www.example.orgの両方に一致します。

@"(([hH][tT][tT][pP][sS]?:\\/\\/|www\\.)[^ ,'\">\\]\\)]*\\.[^\\. ,'\">\\]\\)]{2,6})

「一致グループ」を追加しましたが、正規表現によって返された一致/検索結果を確認して、正しいパラメーターが正しい場所に再挿入されるようにします。

コード スニペット全体を投稿できれば、より簡単になります。

正規表現の説明:

(
    (
        [hH][tT][tT][pP][sS]?:\/\/    # Match HTTP/http (and hTtP :)
        |                             # OR
        www\.                         # www<literal DOT>
    )
    [^ ,'\">\]\)]*                    # Match at least 1 character that are not any of space, comma, apostrophe, quotation mark, "more than", "right square bracket", "right parenthese"
    \.                                # Match <literal DOT>
    [^\. ,'\">\]\)]{2,6}              # Match 2-6 characters that are not any of dot, space, comma, apostrophe, quotation mark, "more than", "right square bracket", "right parenthese"
)
于 2011-05-26T11:49:57.740 に答える