java - Javaで大きな正規表現パターンを作成するには?

Question

HTML ページから多くの情報を解析 (盗み) しようとしています。そして、多くの情報がブロックにあります。のように: username: 1.age 2.gender 3.country など。これは非常に大きなブロックであるため、私の正規表現パターンは巨大です。私のすべての正規表現開発ツールには、パターン用の 1 行と、テキスト用のテキストボックスがあります。この種の大きなパターンの開発は不可能です。大規模な正規表現パターンを開発するにはどうすればよいですか、またはそれらを回避する必要がありますか?

score 2 · Accepted Answer

HTML ページは、基本的に有効な DOM 構造です。したがって、正規表現の代わりに DOM パーサーを使用して、必要な情報を取得することをお勧めします。JSoupを調べることができます: Java HTML パーサー。

score 0 · Accepted Answer

HTML について説明されている解析規則を使用して、text/html リソースから DOM ツリーを生成します。これらのルールを合わせて、HTML パーサーと呼ばれるものを定義します。

java - Javaで大きな正規表現パターンを作成するには?

2 に答える 2

Related

Reference