JavaでSAXを使用して解析することにより、HTMLファイルから情報を抽出しています。解析プログラムは譲っていただいたもので、すでに SAX を使っていたので、そのままにしておきたいと思います。私がすることは次のとおりです。
- Web サイトから HTML ファイルを取得する
- JTidy ライブラリを使用して有効な XML に変換します。ただし、このライブラリはすべての € 記号を「€」に変換します ---> fileXHTML を取得します
- ファイル XHTML を解析ライブラリにフィードして、必要なデータを抽出できるようにします (ハンドラ、関数 startElement()、characters()、および endElement() を作成しました)。
問題: ユーロ記号の新しい文字列では、解析ライブラリが実行されません。「エンティティ acirc は参照されましたが、宣言されていません」 というメッセージが表示されます。
ユーロ記号が問題にならないようにしたいだけです。どうすれば自分のものを整理できますか?
みんな、ありがとう、