c# - PDFファイルのテキストを分割する正規表現

Question

オンラインツールを使用して .txt に変換した PDF ファイルがあります。その中のデータを解析し、正規表現を使用して分割したいと思います。私はほぼ完了しましたが、1点で立ち往生しています。

データの例は次のとおりです。

00 41 53 Bid Form – Design/Build (Single-Prime Contract)

27 05 13.23 T1 Services

私はそれを次のように分割したい：00 41 53 Bid Form – Design/Build (Single-Prime Contract)そして他のものは27 05 13.23 T1 Services

私が使用している正規表現は[0-9](\d|\ |\.)*(\D)*

(スペースおよび/またはドットを含む数字と、(文字、ドット、コンマ)、、、、-および数字) のテキストを使用できます。

上記の「T1 サービス」のように文字列に数字が含まれていると、文字列を照合できません。

score 2 · Accepted Answer

私がこれを正しく理解していれば、あなたは改行文字で分割しようとしています.これはC#にあります.

string[] Result = Regex.Split(inputText, "[\r\n]+");

score 0 · Accepted Answer

次のように、正規表現なしで実行することもできます。

string phrase = ".......\n,,,,.ll..\r\n....";
string[] words;

words = phrase.Split(new string []{"\n","\r"}), StringSplitOptions.RemoveEmptyEntries);

正規表現のみが必要な場合は、@mhasan ソリューションを使用してください。

c# - PDFファイルのテキストを分割する正規表現

2 に答える 2

Related

Reference