私はこれが重要な問題であることを非常に承知しています。
私は現在これを持っています:
(.*?)(!,"\s|!,"$|\.\s|\.$|\!"?\s+?|\!"?$|\?"?\s+?|\?"?$|\."\s+?|\."$|…"\s+?|…"?$)
これは、さまざまな行末ビットに一致し、文/段落を分割しています。とても良い仕事をしています。
ただし、次の文が与えられます。
Hello, Dr. Smith. How are you?
これを次のように分割したいと思います。
Hello, Dr. Smith.
How are you?
私の既存のソリューションは次のようなものを生成します:
Hello, Dr.
Smith.
How are you?
(否定的に)一致する一連の敬意があります:
Dr.|Prof.|Mr.|Mrs.|Ms.
これを行う方法はありますか?