各文字のユニコード名から始めることができます。例 (Python の場合):
>>> import unicodedata
>>> unicodedata.name(u'Φ')
'GREEK CAPITAL LETTER PHI'
>>> unicodedata.name(u'ش')
'ARABIC LETTER SHEEN'
>>> unicodedata.name(u'Ü')
'LATIN CAPITAL LETTER U WITH DIAERESIS'
Unicode はラテン文字を特定の言語固有のアルファベットに割り当てないため、ラテン文字を特殊なケースにする必要がある場合があります。それらのほとんどは、ラテン語ベースのアルファベットを使用するいくつかの言語で表示されますが、ドイツ語の場合にのみデータに Ü が含まれることが何らかの形で確信できる場合は、目的のためにその文字をドイツ語として識別することができます。心配するラテン文字は数十個しかありません。
同様に、多数の言語が UnicodeCYRILLIC
文字を使用しているため、ほとんどの場合、それらの文字が存在しても言語がわからない. 一部は、特定の言語に属するものとして Unicode によって記述されます。http://www.unicode.org/charts/PDF/U0400.pdfCYRILLIC SMALL LETTER YI
に「ウクライナ語」という注記があります。それらのメモが網羅的かどうか、つまり、その文字を使用する言語がウクライナ語だけかどうかはわかりません。そして、その特徴を持たないウクライナ語の単語がたくさんあることは確かです. 基本的に、ウクライナ固有の文字の有無だけでは、ウクライナ語とロシア語を区別することはできません。
同じことが Unicode の他のアルファベットにも当てはまると思います。本当に運が良ければ、各文字に関するそのようなメモを含む Unicode データベースを見つけることができるので、特定の言語について言及するためにそれをマイニングできます。