0

私は正規表現の基本的な理解しか持っていません。私の意図は、単語文書内のすべての単語をキャプチャすることであり、この目的のためにこの正規表現を設計しました。私のワード文書は、Rs.1,00,000/- のように書かれた数字で構成されており、57.58 のように書かれた小数も含まれています。また、空白で区切られていない F.No.245/12-445/235 のように記述されたファイルへの参照も含まれます。

次の正規表現でほぼ成功しています

(Rs\.)?((\d{1,2}[\,])?)+(\d{3}\/\-)|([']?[\(]?[A-Za-z0-9][']?[-]?[?]?[!]?[:]?[-]?[.]?[/]?[\.]?[\(]?[\)]?[\(]?[\)]?[\/]?)+

単語をキャプチャするために、単語文書から切り取り、テキスト ファイルに貼り付けます。このファイルは、C# プログラムによって読み取られます。私の問題は、単語の最後にあるピリオドやドットが必要ないことです。エンドワードの後に​​エクスクラメーションマークやクエスチョンマークが付いていても問題ありません。私がテストしたところ、テキスト ファイルから 13,150 語がキャプチャされましたが、Word 文書では 13,158 語であることが示されました。

4

1 に答える 1

0

空白以外の文字が必要で、その後に空白または「F.No.」が続きます。

\S*?(?=\s|(F\.No\.))
于 2013-01-25T15:29:07.173 に答える