3

文字の組み合わせを使用して、古くて珍しい文字をUnicodeで表示するための回避策を見つけようとしています。現在、いくつかの辞書をEPWINGからテキストに変換していますが、通常のUTF-8では再現できない36種類の文字があります。以下は、私が変換している辞書の1つに対するepwing gaijiからunicodeへのマッピングの問題のセクションです。一部の領域では、さまざまな方法で文字を組み合わせるために明らかに使用されている興味深い構文があります。誰かがこの構文が何であるか、そしてそれを使用する方法についてのドキュメントやチュートリアルをどこで見つけることができるかを誰かが特定できるかどうかを望んでいました。

s/<?w=b02a>//g
s/<?w=b04b>/者/g
s/<?w=b064>/<⾱ >/g
s/<?w=b077>/<彳&lt;匕\/匕&gt;>/g
s/<?w=b07c>/<山\/⺀>/g
s/<?w=b12e>//g
s/<?w=b155>/</&gt;/g
s/<?w=b156>/<\/>/g
s/<?w=b157>/<\/\/>/g
s/<?w=b158>/<こ[1]/と|ヿ&gt;/g
s/<?w=b16f>/<㗢&gt;/g
s/<?w=b170>/<㗥&gt;/g
s/<?w=b171>/ଏ/g
s/<?w=b175>/lb/g
s/<?w=b22a>//g
s/<?w=b234>/ff/g
s/<?w=b25e>/㯌/g
s/<?w=b271>/<扌 晉&gt;/g
s/<?w=b36b>//g
s/<?w=b373>//g
s/<?w=b42c>//g
s/<?w=b434>/<已\/大&gt;/g
s/<?w=b438>//g
s/<?w=b43a>//g
s/<?w=b43f>/<㇀/丶&gt;/g
s/<?w=b440>//g
s/<?w=b45a>/<?&gt;/g
s/<?w=b45b>/<|&gt;/g
s/<?w=b53d>/<?>/g
s/<?w=b53e>/<?>/g
s/<?w=b540>/<o>/g
s/<?w=b537>/<ト モ&gt;/g
s/<?w=b541>/<一/>/g
s/<?w=b544>/<?>/g
s/<?w=b546>/<[r45]卐&gt;/g
s/<?w=b55f>/*/g

この線は、彳を左の垂直部首として表し、1つの匕を別の匕の上に積み重ねて文字の右の垂直部分として表すことになっていることを知っています。

s/<?w=b077>/<彳&lt;匕\/匕&gt;>/g

これもかなり明白です、それは45度回転した卐です:

s/<?w=b546>/<[r45]卐&gt;/g

注:?w =の後に続く4文字の16進コードは、Unicodeが対応することになっているepwinggaijiの識別子です。

お時間をいただきありがとうございます。

4

1 に答える 1

4

Unicode標準のセクション12.2、漢字構成記述文字を参照してください。それはあなたの正確な状況を議論します。

残念ながら、あなたがやろうとしていることに対するソフトウェアサポートは事実上存在しないことに気付くかもしれません。

于 2011-06-05T18:09:21.937 に答える