c++ - 正規表現、正規表現、url、img を強化

Question

Web ページの HTML ソースですべてのリンクと画像を見つける必要があります。実際には、次の式があります。

boost::regex findurl("(?s)<\\s*a\\s+.*?href\\s*=\\s*['\"]([^http]{1}[^\\s>]*)['\"]", boost::regex::normal | boost::regbase::icase);

画像 ( タグ ) も検索するのはどのように見えるでしょうか?

score 4 · Accepted Answer

Perl を学び、HTML::Parser を使用するのにかかる時間は、病的な HTML では機能しないこの正規表現をデバッグするよりも短くなります。あなたが画像について質問しているだけだとしても、私はすでに 3 つのリンクのバグを見つけています。

これにはサンプルコードが含まれており、Perl を知らなくても変更方法を理解できるでしょう。 http://perlmeme.org/tutorials/html_parser.html

score 0 · Accepted Answer

文字クラス ( ) で文字を繰り返すことは[^http]正しくないようです。djechlin は、RE では不十分である可能性が高いという点を指摘していますが、最も単純な HTML ではそうです。

2 に答える 2