0

クメール語 (単語間にスペースがない言語) 用のオープンソース Java 単語分割プログラムに単語を追加したいと考えています。開発者は長い間それに取り組んでおらず、詳細について連絡することができませんでした (http://sourceforge.net/projects/khmer/files/Khmer%20Word%20Breaking/Khmer%20Word%20Breaking %20program%20V1.0/)。おそらくリストはクメール語辞書から作成されたものであり、より多くの単語を含めるためにファイルを再作成したいと考えています。

単語辞書の形式を特定できる人はいますか (ある種の Trie だと思います)。最初の数行は次のとおりです。

0ឳមអគណជយឍឫហកដពទឱលថឦឡញឩខនឧផប។ឋវឭឈឃឥឌឰឪសងចភធឯតឆរ
1ទ
0ក
1
1ីែមគួណជយ៍ៀហកទុលេញ៉ឺនំឹៃូឈឃោាឿសងចិ្ធើតៅរ
1គនសងរ
0ទ
0ា
0យ
0ព
0ន
1
1រ
0ា
0ស
0ី
1

そして、私が新しいものを作成する方法を知っている人はいますか (私は大きな単語リストを持っていますが、それをこの形式にする方法がわかりません)。

ありがとう!

4

1 に答える 1

1

コードをざっと見てみると、ある理論があります。

SearchTreeを拡張する を作成しますTreeItem。辞書の単語ごとに、addWordfromを呼び出しますTreeItem。反復が完了したら、 を呼び出しexportますSearchTree。新しいファイルを単語入力ファイルとして使用します。

--createさらに、標準入力から新しいツリーの単語を読み取るkhwrdbrk.jar の文書化されていないパラメーターが存在する場合があります。

繰り返しますが、単なる理論ですが、テストするとどうなるか教えてください.

于 2011-01-29T13:47:32.567 に答える