-1

HTML ページから多くの情報を解析 (盗み) しようとしています。そして、多くの情報がブロックにあります。のように: username: 1.age 2.gender 3.country など。これは非常に大きなブロックであるため、私の正規表現パターンは巨大です。私のすべての正規表現開発ツールには、パターン用の 1 行と、テキスト用のテキスト ボックスがあります。この種の大きなパターンの開発は不可能です。大規模な正規表現パターンを開発するにはどうすればよいですか、またはそれらを回避する必要がありますか?

4

2 に答える 2

2

HTML ページは、基本的に有効な DOM 構造です。したがって、正規表現の代わりに DOM パーサーを使用して、必要な情報を取得することをお勧めします。JSoupを調べることができます: Java HTML パーサー。

于 2013-10-07T16:51:54.120 に答える
0

HTML について説明されている解析規則を使用して、text/html リソースから DOM ツリーを生成します。これらのルールを合わせて、HTML パーサーと呼ばれるものを定義します。

于 2013-10-07T16:52:35.750 に答える