c# - 正規表現 - 宝くじ番号を検索

Question

私はそれらにゴミがあるので、可能であれば正規表現のガイダンスを望んでいました:(

宝くじをスキャンしてテキストに変換し、返されたテキストから宝くじ番号を抽出しようとしています。

返される文字列は次のとおりです。

"if * it • 
Including Millionaire Raffle
7618-011874089-204279   111111111111111111111111111111
Goad luck for your draw on Fri 09 Nov 12
Your numbers
Lucky Stars
A 1 8 22 37 47 48 - 03 10
B11 15 26 43 44 - 05 06
C 08 23 27 28 29 - 02 09
D06 09 21 26 29 - 01 05
E 06 07 21 22 45 - 04 05
Your raffle numbers) for your draw(s)
PRC690104 
PRC690105 
PRC690106 
PRC690107 
1DRC690108
CHECK YOUR MILLIONAIRE RAFFLE 
RESULTS ONLINE AT 
WWW.NATIONAL-LOTTERY.CO.UK
5 plays x f2.00 for 1 draw = f10.00
HUGE EUROMILLIONS JACKPOTS TO
PLAY FOR EVERY TUESDAY AND
FRIDAY! PLAY TODAY FOR THE
CHANCE TO WIN YOUR WILDEST
DREAMS!
7618-011874089-204279 035469 Term. 26048301
Fill the box to void the ticket
11111111111111111111111 1111111111111111111111111"

スキャンした画像は次のとおりです。

スキャンされたチケット

ご覧のとおり、宝くじ番号は常に「らき☆すた」と「あなたのラッフル」の間に表示されているようです。

結果を取り除く方法を誰かが提案できますか?

どんな助けでも大歓迎です！

score 1 · Accepted Answer

との組み合わせはRegex、string.Splitよりシンプルで効率的です。

Regex reg = new Regex("(?s)(?<=Lucky Stars).+?(?=Your raffle numbers)");
string[] yourNumbers = Regex.Replace(reg.Match("inputString").Value,"[ -]", "")
                            .Split(new char[]{'\n'}, StringSplitOptions.RemoveEmptyEntries);

score 0 · Accepted Answer

この正規表現のペアは、あなたが示したケースで機能するはずです。

/// <summary>
///  Regular expression built for C# on: Sun, Aug 25, 2013, 12:55:52 PM
///  Using Expresso Version: 3.0.4334, http://www.ultrapico.com
///  
///  A description of the regular expression:
///  
///  Match expression but don't capture it. [Lucky Stars\r\n]
///      Lucky Stars\r\n
///          Lucky
///          Space
///          Stars
///          Carriage return
///          New line
///  [Numbers]: A named capture group. [.*\r\n], exactly 5 repetitions
///      .*\r\n
///          Any character, any number of repetitions
///          Carriage return
///          New line
///  
///
/// </summary>
public static Regex regex = new Regex(
      "(?:Lucky Stars\\r\\n)(?<Numbers>.*\\r\\n){5}",
    RegexOptions.CultureInvariant
    | RegexOptions.Compiled
    );


public static Regex replaceRegex = new Regex(
      "(\\s-.*\r\n)",
    RegexOptions.CultureInvariant
    | RegexOptions.Compiled
    );

また、数値取得のコードは次のようになります。

var InputText = @"Lucky Stars
A 1 8 22 37 47 48 - 03 10
B11 15 26 43 44 - 05 06
C 08 23 27 28 29 - 02 09
D06 09 21 26 29 - 01 05
E 06 07 21 22 45 - 04 05
Your raffle numbers";

Match m = regex.Match(InputText);
var numbers = m.Groups["Numbers"].Captures
    .OfType<Capture>()
    .Select(c => replaceRegex.Replace(c.Value, "").Replace(" ", ""));

しかし、OCR技術を使用して画像からテキストを取得している場合、正規表現を使用することが最善の解決策であるとは思えません。

score 0 · Accepted Answer

結果の先頭に 0 があるため (たとえば、8 の場合は 08)、2 桁ごとに分割するのが簡単な方法です。正規表現は必要ありません。

c# - 正規表現 - 宝くじ番号を検索

4 に答える 4

Related

Reference