java - htmlからハイパーリンクを抽出するためにjpedalを使用していますか? --Java

Question

Java の JPedal ライブラリは、通常、pdf を XML または HTML に変換するために使用されます。しかし、HTML5 ドキュメントからデータを抽出し、JPedal ライブラリ API を使用して XML に保存できるかどうかを知る必要がありました。これに代わる他の可能な方法はありますか？

また、Java を使用して HTML5 ドキュメントを解析し、XML に保存しようとしています。特定のタグだけを見つけて、それらから XML をレンダリングする良い解決策はありますか?

教えてください。ありがとうございました。

score 0 · Accepted Answer

Java HTML パーサーは数多くありますが、http: //about.validator.nu/htmlparser/からダウンロードできる validator.nu の HTML5 パーサーを使用することをお勧めします。

HTML5 の主役の 1 人である Mozilla の Henri Sivonen によって HTML5 パーサーアルゴリズムを使用するように書かれています。これ以上信頼性の高い HTML パーサーは他になく、標準の XML ツールを使用して操作し、 XPath。XSLT 変換を使用する方法と、作成された DOM の XML シリアル化を取得する方法の例があります。

java - htmlからハイパーリンクを抽出するためにjpedalを使用していますか? --Java

1 に答える 1

Related

Reference