HTML Tidy Online(http://infohound.net/tidy/)を使用して、ヘブライ文字を含む非常に古くて混乱したHTMLファイルを整理しています。ページがTidyによって処理されるときはいつでも、設定でエンコード方法を変更した後でも、出力はヘブライ文字をぎこちないものに変えます。さまざまな設定を使用して、ヘブライ文字でユニコードエンティティと同じ出力を取得することができます。考えられる解決策をグーグルで探しましたが、見つかりませんでした。私はいくつかのアイデアを念頭に置いていましたが、もしあったとしても、それらにどのようにアプローチするかは正確にはわかりません(おそらく誰かがより良い解決策を持っています)。
- (ページを処理した後)ページをスキャンしてUnicodeエンティティを探し、対応するヘブライ文字に置き換えることができると思いました(もちろん体系的な方法で)。
- たぶん、HTML Tidyソースコードを取得して、ヘブライ文字を適切に出力するように変更することができます。これに伴う問題は、私がこのようなことを始めるのに十分な知識があるとは思えないということです。