-1

私が次のものを持っているとしましょう:

  • 文章のリスト(句読点なし)
  • 長い単語列 (句読点なし)

私の目標は、文を構成しない単語を除外して、この文字列を文のチャンクに分割することです。

私はこれに対するアドホックな解決策を考えようとしていましたが、それはよく知られた問題かもしれないと感じました (最短経路問題などのように、効率的な既存のアルゴリズムを実装することが推奨される問題を意味します...)

それで、これのためのアルゴリズムはありますか?

編集: サンプル文:

hello

how are you

what do you want

are you hungry

do you want to eat

are you thirsty

do you want to drink

what is your name

good morning

good night

入力文字列の例:

do do how are you eat

したがって、how are you出力になるはずです。

(音声認識出力なので入力サンプルがおかしくなっているかもしれません)

ありがとう。

4

1 に答える 1

0

ここで説明するいくつかの自由に利用できるツールがあります。

http://metaoptimize.com/qa/questions/7001/the-best-sentence-segmentation-tool-until-now

于 2013-05-09T15:59:13.300 に答える