regex - 空白で区切られたテキストファイルからすべての単語を抽出する正規表現

Question

私は正規表現の基本的な理解しか持っていません。私の意図は、単語文書内のすべての単語をキャプチャすることであり、この目的のためにこの正規表現を設計しました。私のワード文書は、Rs.1,00,000/- のように書かれた数字で構成されており、57.58 のように書かれた小数も含まれています。また、空白で区切られていない F.No.245/12-445/235 のように記述されたファイルへの参照も含まれます。

次の正規表現でほぼ成功しています

(Rs\.)?((\d{1,2}[\,])?)+(\d{3}\/\-)|([']?[\(]?[A-Za-z0-9][']?[-]?[?]?[!]?[:]?[-]?[.]?[/]?[\.]?[\(]?[\)]?[\(]?[\)]?[\/]?)+

単語をキャプチャするために、単語文書から切り取り、テキストファイルに貼り付けます。このファイルは、C# プログラムによって読み取られます。私の問題は、単語の最後にあるピリオドやドットが必要ないことです。エンドワードの後にエクスクラメーションマークやクエスチョンマークが付いていても問題ありません。私がテストしたところ、テキストファイルから 13,150 語がキャプチャされましたが、Word 文書では 13,158 語であることが示されました。

score 0 · Accepted Answer

空白以外の文字が必要で、その後に空白または「F.No.」が続きます。

\S*?(?=\s|(F\.No\.))

regex - 空白で区切られたテキストファイルからすべての単語を抽出する正規表現

1 に答える 1

Related

Reference