Mr. and Dr. や USA などのケースを考慮して、段落または大量のテキストをどのように文に分割しますか (できれば Ruby を使用)。(文を配列の配列に入れるだけだと仮定します)
更新: 私が考えた解決策の 1 つは、品詞タガー (POST) と分類子を使用して文の終わりを判断することです。
ジョーンズ氏からデータを入手した彼は、イタリアの夏の別荘のバルコニーに出たとき、顔に暖かい日差しを感じました。彼は生きていて幸せでした。
CLASSIFIER Mr./PERSON ジョーンズ/PERSON は感じた/おお/おあたたかい/おお太陽/お上に/おおお彼/お顔/おおとして/おおお彼は/おおお/お外へ/おおお上へ/おおおバルコニー/おお/O 彼の/O 夏/O 家/O in/O イタリア/LOCATION ./O 彼/O は/O 幸せだった/O to/O be/O 生きている/O ./O
POST Mr./NNP ジョーンズ/NNP フェルト/VBD the/DT warm/JJ sun/NN on/IN his/PRP$ face/NN as/IN he/PRP stepped/VBD out/RP on/IN the/DT バルコニー/ NN of/IN his/PRP$ summer/NN home/NN in/IN Italy./NNP He/PRP was/VBD happy/JJ to/TO be/VB alive./IN
イタリアが場所なので、ピリオドが文の有効な末尾であると仮定できますか? 「さん」で終わるので。他の品詞がない場合、これは有効な文末期間ではないと仮定できますか? これは私の質問に対する最良の答えですか?
考え?