私は、28 の言語で出版された賛美歌集の賛美歌のタイトルを含むデータベースを持っています。タイトルを入力しながら、各言語でどの Unicode 文字が最も正しいかを調べました (たとえば、トンガ語の声門の終点は、アポストロフィのように見えますが、U+02BB である必要があります。また、ルーマニア語では、U+021A (ț) U+0163 (ţ) などよりも正確です)。
現在、私は同様のプロジェクトに取り組んでおり、すべてのタイトルを単一の言語で収集し、タイトルで使用されたすべての一意の文字のリストを出力することにより、研究に戻って「分解」したいと考えています。
MySQL や Python でこれを行う方法はありますか? 文字列をすべての文字に分割し、すべての文字を並べ替えて、グループ化することを考えています。私の Web サイトは Python で書かれていますが、それはすべて非常に基本的なコーディングです (私はまだそれほど高度ではありません)。
編集:これらの応答のおかげで、これが私のコードが最終的にどのようになったかであり、うまく機能します!
hymnstitleslist = lookup('''
SELECT HyName FROM Hymns
WHERE HymnbookID = "'''+hbid+'''"
''')
import string
from collections import Counter
some_text = ""
for x in range(0, len(hymnstitleslist)):
some_text = some_text+hymnstitleslist[x]['HyName']
letters = []
for i in some_text:
letters.append(i)
letter_count = Counter(letters)
for letter,count in letter_count.iteritems():
print "{}: {}".format(letter,count)