regex - perl を使用して HTML からセクションの内容を抽出する

Question

perl を使用して、HTML 文字列内のセクションタグのすべてのコンテンツを取得したいと考えています。次のコード行を使用していますが、機能していないようです。

$article_content =~ s/^.*?<section>(.*)<\/section>.*?$/$1/;

score 1 · Accepted Answer

HTML の解析に正規表現を使用しないでください。HTML を正規表現で確実に解析することはできません。HTML が予想から変更されるとすぐに、コードが壊れます。Perl モジュールで HTML を適切に解析する方法の例については、http://htmlparsing.com/perl.htmlを参照してください。

score 1 · Accepted Answer

1

The first problem is that you assume . matches any character, but that's only the case when using /s.

于 2012-12-23T13:16:40.843 に答える

score 1 · Accepted Answer

1

に変更(.*)して(.*?)、それが役立つかどうかを確認します。

于 2012-12-23T05:27:39.257 に答える

regex - perl を使用して HTML からセクションの内容を抽出する

3 に答える 3

Related

Reference