クメール語 (単語間にスペースがない言語) 用のオープンソース Java 単語分割プログラムに単語を追加したいと考えています。開発者は長い間それに取り組んでおらず、詳細について連絡することができませんでした (http://sourceforge.net/projects/khmer/files/Khmer%20Word%20Breaking/Khmer%20Word%20Breaking %20program%20V1.0/)。おそらくリストはクメール語辞書から作成されたものであり、より多くの単語を含めるためにファイルを再作成したいと考えています。
単語辞書の形式を特定できる人はいますか (ある種の Trie だと思います)。最初の数行は次のとおりです。
0ឳមអគណជយឍឫហកដពទឱលថឦឡញឩខនឧផប។ឋវឭឈឃឥឌឰឪសងចភធឯតឆរ
1ទ
0ក
1
1ីែមគួណជយ៍ៀហកទុលេញ៉ឺនំឹៃូឈឃោាឿសងចិ្ធើតៅរ
1គនសងរ
0ទ
0ា
0យ
0ព
0ន
1
1រ
0ា
0ស
0ី
1
そして、私が新しいものを作成する方法を知っている人はいますか (私は大きな単語リストを持っていますが、それをこの形式にする方法がわかりません)。
ありがとう!