1

私はこれが重要な問題であることを非常に承知しています。

私は現在これを持っています:

(.*?)(!,"\s|!,"$|\.\s|\.$|\!"?\s+?|\!"?$|\?"?\s+?|\?"?$|\."\s+?|\."$|…"\s+?|…"?$)

これは、さまざまな行末ビットに一致し、文/段落を分割しています。とても良い仕事をしています。

ただし、次の文が与えられます。

Hello, Dr. Smith. How are you?

これを次のように分割したいと思います。

  1. Hello, Dr. Smith.
  2. How are you?

私の既存のソリューションは次のようなものを生成します:

  1. Hello, Dr.
  2. Smith.
  3. How are you?

(否定的に)一致する一連の敬意があります:

Dr.|Prof.|Mr.|Mrs.|Ms.

これを行う方法はありますか?

4

1 に答える 1