これは興味深い質問ですが、間違った理由で質問しているのではないかと思います。この「字句」Unicodeは、文を言語に中立な意味のアトミック要素に分解し、他の具体的な言語で再構成できるものと考えていますか?万能翻訳機を実現する手段として、おそらく?
たとえば、「字句ユニコード」を使用して英語の文をエンコードして保存できたとしても、それを読んで、意味を損なわずに中国語で魔法のようにレンダリングすることは期待できません。
ただし、Unicodeとの類似性は非常に役立ちます。
Unicodeは、「ユニバーサル」コードですが、問題の文字の発音、意味、または使用法を具体化していないことに注意してください。各コードポイントは、特定の言語の特定のグリフ(または言語のグループによって使用されるスクリプト)を参照します。これは、グリフの視覚的表現レベル(スタイル、フォーマット、フォントの範囲内)で要素的です。ラテン文字「A」のUnicodeコードポイントはまさにそれです。ラテン文字の「A」です。たとえば、アラビア文字のAlif(ﺍ)またはインド語(Devnagari)の文字「A」(अ)として自動的にレンダリングすることはできません。
Unicodeのアナロジーを維持すると、Lexical Unicodeには、各言語の各単語(単語形式)のコードポイントがあります。Unicodeには、特定のスクリプトのコードポイントの範囲があります。字句Unicodeは、言語ごとにさまざまなコードを使用する必要があります。同じ意味(同義語)であっても、異なる言語の異なる単語は、異なるコードポイントを持っている必要があります。異なる意味、または異なる発音(同音異義語)を持つ同じ単語は、異なるコードポイントを持つ必要があります。
Unicodeでは、同じ文字が単語内の位置に応じて異なる形状を持つ一部の言語(すべてではない)の場合(たとえば、ヘブライ語とアラビア語では、単語の末尾でグリフの形状が変化します)、次のようになります。別のコードポイント。同様に、Lexical Unicodeでは、単語が文中の位置に応じて異なる形式である場合、それ自体のコードポイントが必要になる場合があります。
おそらく、英語のコードポイントを考え出す最も簡単な方法は、たとえば、オックスフォード英語辞典の特定のエディションに基づいてシステムを構築し、各単語に一意のコードを順番に割り当てることです。同じ単語の異なる意味ごとに異なるコードを使用する必要があり、異なる形式に異なるコードを使用する必要があります。たとえば、同じ単語を名詞および動詞として使用できる場合は、次のようになります。 2つのコード
次に、含めたい他の言語についても同じことを行う必要があります。その言語で最も信頼できる辞書を使用します。
この演習は、価値がある以上にすべての努力である可能性があります。世界のすべての生きている言語に加えて、いくつかの歴史的な死語といくつかの架空の言語を含めることにした場合(Unicodeのように)、コードスペースが非常に大きくなり、それに対応するためにコードを非常に広くする必要があります。圧縮に関しては何も得られません。元の言語で文字列として表される文は、コードとして表される同じ文よりも占有するスペースが少なくなる可能性があります。
言葉の意味が変わるので、これは不可能な仕事だと言っている人のためのPS、私はそれを問題とは見ていません。Unicodeのアナロジーを使用するために、文字の使用法は変更されました(確かに、単語の意味ほど急速ではありません)が、中世に「th」が「y」のように発音されていたのはUnicodeには関係ありません。Unicodeには、「t」、「h」、および「y」のコードポイントがあり、それぞれが目的を果たします。
PPS実際、Unicodeにとって、「oe」も「œ」であるか、「ss」をドイツ語で「ß」と書くことができるかどうかが懸念されます。