7

単語分割の問題を解決したい(スペースのない長い文字列から単語を解析する)。somelongwordたとえば、からに単語を抽出します[some, long, word]

これは、辞書を使用した動的なアプローチによって実現できますが、発生するもう1つの問題は、あいまいさの解析です。つまりorcore=>or coreまたはorc ore(フレーズの意味や品詞は考慮されません)。だから私はいくつかの統計的またはMLアプローチの使用法について考えます。

これを解決するには、列車セットを使用した単純ベイズアルゴリズムとビタビアルゴリズムを使用できることがわかりました。これらのアルゴリズムの単語分割問題への適用に関する情報を教えてください。

UPD:Peter Norvigのコードからのアドバイスを使用して、Clojureにこのメソッドを実装しました

4

2 に答える 2

4

Peter Norvig と Sebastian Thurn によるスライドショーは、始めるのに適したポイントだと思います。Google が作成した実世界の作品を紹介します。

于 2012-03-12T10:43:25.473 に答える
3

この問題は、単語の境界を明示的にエンコードしない多くのアジア言語 (中国語、タイ語など) の単語の分割とまったく同じです。問題へのアプローチの背景が必要な場合は、Google Scholar で現在の中国語の単語セグメンテーション アプローチを確認することをお勧めします。

Sproat、Richard、Thomas Emerson などの古いアプローチから始めることもできます。2003. 最初の国際中国語単語セグメンテーション ベイクオフ (http://www.sighan.org/bakeoff2003/paper.pdf)

既製のソリューションが必要な場合は、LingPipe のチュートリアル (http://alias-i.com/lingpipe/demos/tutorial/chineseTokens/read-me.html) をお勧めします。セグメント化されていない英語のテキストで使用して、良い結果が得られました。基礎となる文字言語モデルを数百万語のニュースワイヤー テキストでトレーニングしましたが、このタスクでは、比較的通常の英語テキストのコーパスを使用して妥当なパフォーマンスが得られると思います。

彼らはスペル修正システムを使用して、候補の「修正」を推奨しました (修正候補は入力と同じですが、スペースが挿入されています)。彼らのスペル修正機能は、レーベンシュタイン編集距離に基づいています。置換と転置を禁止し、許可される挿入を単一のスペースのみに制限します。

于 2012-03-13T16:28:35.857 に答える