文字列を想定します。
item1, item1N, item1Z, item1fhg, item1_any_letters, item2, item3, item3N, item3H
私の目標出力は単純です
item1, item2, item3
これは現在約100,000行のExcelファイルですが、一時的に必要に応じて別のプログラムなどに移行できます。
基本的に、数字の後の文字に関係なく、重複(数字で終わる最初のフレーズ)を判別する必要があります。一部のフレーズには、たとえば「ブランドアイテム2、ブランドアイテム34」も含まれる場合があります。重複の唯一の決定要因は、番号の後のすべての用語です。
これからどこから始めるべきかについてのアイデアはありますか?各文字列には通常、コンマとスペースで区切られた2〜500の値が含まれます。最終値の後にコンマはありません。