基本的、
テキストのブロックから吐き出したいテキストがあります。ほとんどの場合、正規表現はダウンしていますが、少なすぎる[セクションをスキップする]か、多すぎる[次のセクションの一部を読む].基本的には、銀行の明細書から抽出したテキストを読み取る必要があります.私はすでに試しました.正規表現をもっと読んでいますが、どうすればいいのかまだわかりません。
私がやろうとしていることを皆さんが理解できるように、ちょっとしたサンプルを示します。
_4XXXXXXXXXXXXXX9_
_SOU THE HOME DEPOT 431 POMPANO BEACH * FL
AUT 020112 DDA PURCHASE_
_2/1_DEBIT POS_3.15_
アンダースコアは基本的に抽出したい部分です。基本的にDEBIT POS以外は全てです。
そして、私が使用している正規表現は次のとおりです。
\A
(?<SerialNumber>\b[0-9]{13,16}\b)
(?<Description>.) 'PROBLEM HERE'
(?<PostingDate>
(?:1[0-2]|[1-9])/(?:3[01]|[12][0-9]|[1-9]))
(?<Amount>[,0-9]+\.[0-9]{2})
\Z
テキスト部分の最大長がわからないため、説明を任意の長さの文字から設定することはできません。また、説明が2行なのか1行なのかわかりません。それが主に私を混乱させています。