0

Java の JPedal ライブラリは、通常、pdf を XML または HTML に変換するために使用されます。しかし、HTML5 ドキュメントからデータを抽出し、JPedal ライブラリ API を使用して XML に保存できるかどうかを知る必要がありました。これに代わる他の可能な方法はありますか?

また、Java を使用して HTML5 ドキュメントを解析し、XML に保存しようとしています。特定のタグだけを見つけて、それらから XML をレンダリングする良い解決策はありますか?

教えてください。ありがとうございました。

4

1 に答える 1

0

Java HTML パーサーは数多くありますが、http: //about.validator.nu/htmlparser/からダウンロードできる validator.nu の HTML5 パーサーを使用することをお勧めします。

HTML5 の主役の 1 人である Mozilla の Henri Sivonen によって HTML5 パーサー アルゴリズムを使用するように書かれています。これ以上信頼性の高い HTML パーサーは他になく、標準の XML ツールを使用して操作し、 XPath。XSLT 変換を使用する方法と、作成された DOM の XML シリアル化を取得する方法の例があります。

于 2011-10-05T20:13:50.937 に答える