私は正規表現の基本的な理解しか持っていません。私の意図は、単語文書内のすべての単語をキャプチャすることであり、この目的のためにこの正規表現を設計しました。私のワード文書は、Rs.1,00,000/- のように書かれた数字で構成されており、57.58 のように書かれた小数も含まれています。また、空白で区切られていない F.No.245/12-445/235 のように記述されたファイルへの参照も含まれます。
次の正規表現でほぼ成功しています
(Rs\.)?((\d{1,2}[\,])?)+(\d{3}\/\-)|([']?[\(]?[A-Za-z0-9][']?[-]?[?]?[!]?[:]?[-]?[.]?[/]?[\.]?[\(]?[\)]?[\(]?[\)]?[\/]?)+
単語をキャプチャするために、単語文書から切り取り、テキスト ファイルに貼り付けます。このファイルは、C# プログラムによって読み取られます。私の問題は、単語の最後にあるピリオドやドットが必要ないことです。エンドワードの後にエクスクラメーションマークやクエスチョンマークが付いていても問題ありません。私がテストしたところ、テキスト ファイルから 13,150 語がキャプチャされましたが、Word 文書では 13,158 語であることが示されました。