私が次のものを持っているとしましょう:
- 文章のリスト(句読点なし)
- 長い単語列 (句読点なし)
私の目標は、文を構成しない単語を除外して、この文字列を文のチャンクに分割することです。
私はこれに対するアドホックな解決策を考えようとしていましたが、それはよく知られた問題かもしれないと感じました (最短経路問題などのように、効率的な既存のアルゴリズムを実装することが推奨される問題を意味します...)
それで、これのためのアルゴリズムはありますか?
編集: サンプル文:
hello
how are you
what do you want
are you hungry
do you want to eat
are you thirsty
do you want to drink
what is your name
good morning
good night
入力文字列の例:
do do how are you eat
したがって、how are you
出力になるはずです。
(音声認識出力なので入力サンプルがおかしくなっているかもしれません)
ありがとう。