4

シンプルなフォームを含むシンプルな HTML ページを解析する必要があります。StackOverflow に関する同様の質問への回答では、TagSoup、JSoup、HTMLParser など、多種多様な非標準 Java ライブラリの 1 つを使用することが提案されています。

ただし、Web 検索では、このクラスを介して Java SE に標準機能がいくつか存在することが明らかになりました: http://docs.oracle.com/javase/7/docs/api/javax/swing/text/html/parser/ParserDelegator.html

私のサブ質問は次のとおりです。

  1. 標準の ParserDelegator クラスが私のようなユースケースを解析できるというのは本当ですか?
  2. 非常に多くの非標準ライブラリの必要性を生み出す標準ライブラリの制限は何ですか?
  3. ParserDelegator が範囲内にあるという事実は、Web アプリケーション用の通常の EC2 クラウド サーバーで使用することを妨げますか? ヘッドレスの側面を回避するには、多くのフープをジャンプする必要がありますか?それとも、構成を少し調整するだけですか?
  4. 標準のものが推奨されない場合、次のことを考えると、どの非標準のものを使用する必要がありますか。(a) 標準から遠く離れたくないという私の願望。(b) 私の単純な使用例。(c) 成熟した信頼性の高い実装への欲求。(d) これは組み込みクライアントではなくサーバー アプリケーションであるため、サイズや重量の制限はありません。API ははるかに優先順位が低いので、API のような JSoup の CSS セレクターは高く評価していますが、(a) から (d) までの他の懸念事項がそれをオーバーライドします。

ありがとうございました。

4

1 に答える 1

4

JDK には、HTML 1.0 程度をサポートする HTML パーサーが組み込まれています。ベーステキストのフォーマットタグとフォームの解析をサポートする必要があります。

他のサードパーティのパーサーを使用する理由は、「実際の」HTML ページ DHTML、JavaScript などをサポートする必要があるためです。

JSoup は、その仕事を行うことができる人気のあるパーサーの 1 つです。他の実装の詳細については、次の説明を参照してください。

スクロール可能なペインで使用するための Pure Java HTML ビューアー/レンダラー

于 2012-01-31T07:24:22.930 に答える