HttpClient を使用して特定の Web サイトにアクセスすると、応答は HTML の形式になります。HTMLパーサーを使用して、応答から必要なものを取得する必要があるパーサーまたはメソッド。注:JavaでHttpClientを使用しています
3 に答える
jsoupを使用します。
jsoup
は、実際の HTML を操作するための Java ライブラリです。DOM、CSS、および jquery に似たメソッドを最大限に活用して、データを抽出および操作するための非常に便利な API を提供します。
jsoup
WHATWG HTML5 仕様を実装し、HTML を最新のブラウザーと同じ DOM に解析します。
- URL、ファイル、または文字列から HTML をスクレイピングして解析する
- DOM トラバーサルまたは CSS セレクターを使用して、データを検索して抽出する
- HTML 要素、属性、およびテキストを操作する
- XSS攻撃を防ぐために、ユーザーが送信したコンテンツを安全なホワイトリストに照らして消去します
- きちんとした HTML を出力する
jsoup は、実際に見られるすべての種類の HTML を処理するように設計されています。手付かずで検証中のものから、無効なタグスープまで。jsoup は適切な解析ツリーを作成します。
htmlcleanerを試してみます。
HTMLCleaner は、Web で見つかった HTML を安全に解析し、整形式の XML に変換するために使用される Java ライブラリです。小さく、高速で、柔軟性があり、独立しているように設計されています。HtmlCleaner は、コマンド ライン ツールまたは Ant タスクとして Java コードで使用できます。解析の結果は軽量のドキュメント オブジェクト モデルであり、DOM や JDom などの標準に簡単に変換したり、さまざまな方法 (コンパクト、きれいに印刷など) で XML 出力にシリアル化したりできます。
XPath
htmlcleaner と一緒に使用して、xml/html タグ内のコンテンツを取得でき
ます。