java - ソースを整理せずにHTMLパーサー

翻译自：https://stackoverflow.com/questions/12089191 2012-08-23T09:59:58.497

241 次

私のマシンには数百の古いhtmlファイルがあり、それらを解析してデータを抽出しようとしています。Jsoup、Tagsoup、HTMLcleaner、JTidyなどのさまざまなJavaパーサーを試しました。ファイル内のhtmlコードの方法により、XPATHをサポートするパーサーしか使用できず、Jsoupを試しましたが、同等のcssセレクターが見つかりませんでした。

とにかく、私の問題は、私が試したパーサーが何であれ、実際のコンテンツをクリーンアップし、'（アポストロフィ）のようなものを奇妙な文字に変換することです。

特別な文字を整理して置き換えることなく、Javaパーサーを使用してコンテンツを解析することは可能ですか？

java - ソースを整理せずにHTMLパーサー

0 に答える 0

Related

Reference