たとえば、一連の文字列が与えられた場合:
EFgreen
EFgrey
EntireS1
EntireS2
J27RedP1
J27GreenP1
J27RedP2
J27GreenP2
JournalP1Black
JournalP1Blue
JournalP1Green
JournalP1Red
JournalP2Black
JournalP2Blue
JournalP2Green
これらが 3 つのファイル セットであることを検出できるようにしたいと考えています。
- 全体[1,2]
- J27[赤、緑]P[1,2]
- JournalP[1,2][赤、緑、青]
この問題にアプローチする既知の方法はありますか?これについて読むことができる公開された論文はありますか?
私が検討しているアプローチは、文字列ごとに他のすべての文字列を見て、共通の文字と異なる文字がどこにあるかを見つけ、最も共通している文字列のセットを見つけようとすることですが、これはあまり効率的ではなく、偽陽性。
これは、 「ファイル名に含まれる一般的な文字列のグループを検出する方法」と同じではないことに注意してください。これは、文字列には常に一連の数字が続くことを前提としているためです。