unicode - HTMLTidyによって処理されたヘブライ文字はぎこちないものに変わります

Question

HTML Tidy Online（http://infohound.net/tidy/）を使用して、ヘブライ文字を含む非常に古くて混乱したHTMLファイルを整理しています。ページがTidyによって処理されるときはいつでも、設定でエンコード方法を変更した後でも、出力はヘブライ文字をぎこちないものに変えます。さまざまな設定を使用して、ヘブライ文字でユニコードエンティティと同じ出力を取得することができます。考えられる解決策をグーグルで探しましたが、見つかりませんでした。私はいくつかのアイデアを念頭に置いていましたが、もしあったとしても、それらにどのようにアプローチするかは正確にはわかりません（おそらく誰かがより良い解決策を持っています）。

（ページを処理した後）ページをスキャンしてUnicodeエンティティを探し、対応するヘブライ文字に置き換えることができると思いました（もちろん体系的な方法で）。

たぶん、HTML Tidyソースコードを取得して、ヘブライ文字を適切に出力するように変更することができます。これに伴う問題は、私がこのようなことを始めるのに十分な知識があるとは思えないということです。

score 2 · Accepted Answer

私も同様の問題を抱えていました。Unicode文字を含むUTF-8のドキュメント。HTMLTidyはそれらをHTMLエンティティに変換しました。HTMLTIDY.CFGのこれはそれを修正しました：

char-encoding: utf8
input-encoding: utf8
output-encoding: utf8

それが役に立てば幸い。

score 0 · Accepted Answer

使用しているWebサイトhttp://infohound.net/tidy/には、右下に「Charencoding」句があります。utf-8を選択する必要がありますが、最初に、テストエディターでページがUTF-8でエンコードされていることを確認する必要があります。たとえば、Notepad ++では、に移動できますEncoding > Convert to UTF-8 without BOM。

unicode - HTMLTidyによって処理されたヘブライ文字はぎこちないものに変わります

2 に答える 2

Related

Reference