単語分割の問題を解決したい(スペースのない長い文字列から単語を解析する)。somelongword
たとえば、からに単語を抽出します[some, long, word]
。
これは、辞書を使用した動的なアプローチによって実現できますが、発生するもう1つの問題は、あいまいさの解析です。つまりorcore
=>or core
またはorc ore
(フレーズの意味や品詞は考慮されません)。だから私はいくつかの統計的またはMLアプローチの使用法について考えます。
これを解決するには、列車セットを使用した単純ベイズアルゴリズムとビタビアルゴリズムを使用できることがわかりました。これらのアルゴリズムの単語分割問題への適用に関する情報を教えてください。
UPD:Peter Norvigのコードからのアドバイスを使用して、Clojureにこのメソッドを実装しました