Python を使用してもかまわない場合は、モジュールを使用して、ファイルで使用されている文字を確認できunicodedata
ます。nāgarī 入力と Python 3 の例:
>>> import unicodedata
>>> word = "ब्र॑ह्मन्"
>>> len(word)
9
>>> for char in word:
... unicodedata.name(char)
...
'DEVANAGARI LETTER BA'
'DEVANAGARI SIGN VIRAMA'
'DEVANAGARI LETTER RA'
'DEVANAGARI STRESS SIGN UDATTA'
'DEVANAGARI LETTER HA'
'DEVANAGARI SIGN VIRAMA'
'DEVANAGARI LETTER MA'
'DEVANAGARI LETTER NA'
'DEVANAGARI SIGN VIRAMA'
もちろん、最初に各スクリプトで使用されているグリフの Unicode 名を探す必要があります。Unicode 文字の表は、ここにあります。各言語のいくつかの特定の表は、同じ Web サイトで提供されています。
キャッチしたい文字の範囲を定義したら、あとはとても簡単です。
all_chars = ['ब', '्', 'र', '॑', 'ह', '्','म', 'न', '्']
i = 0
with open('thefile') as f:
for line in f.readline():
i += 1
for char in all_chars:
if char in line:
print("char %s found in line %s" % (char, i))
continue