私のマシンには数百の古いhtmlファイルがあり、それらを解析してデータを抽出しようとしています。Jsoup、Tagsoup、HTMLcleaner、JTidyなどのさまざまなJavaパーサーを試しました。ファイル内のhtmlコードの方法により、XPATHをサポートするパーサーしか使用できず、Jsoupを試しましたが、同等のcssセレクターが見つかりませんでした。
とにかく、私の問題は、私が試したパーサーが何であれ、実際のコンテンツをクリーンアップし、'(アポストロフィ)のようなものを奇妙な文字に変換することです。
特別な文字を整理して置き換えることなく、Javaパーサーを使用してコンテンツを解析することは可能ですか?