バックグラウンド:
私は、コンピューターに保存されているすべての映画とテレビ シリーズのエピソードを繰り返し処理し、それらを (腐ったトマトを使用して) 評価し、評価順に並べ替えるプログラムを開発しています。
ファイル名から「.avi」や「720p」などの不要なテキストをすべて削除して、ムービー名を抽出します。
私はJavaを使用しています。
問題:
一部のフォルダには、次のようなムービー ファイルが含まれています。
しの301
しの302
「エピソード」という単語と数字は有効であり、映画でよく使用される単語であるため、単純に削除することはできません。ただし、「エピソード」と「3XX」を削除する必要があることは、名前の繰り返しの性質から明らかです。
別のフォルダーは次のようになります。
720p.S5.E1.不自由な戦い.avi
720p.S5.E2.towelie.avi
このような多くの 任意のパターンがさまざまなファイルのグループに存在します。キーワードを抽出できるように、これらの任意のパターンを再構成する何かが必要です。ケースごとに正規表現を書くのは現実的ではありません。
概要:
複雑な繰り返しパターンを見つけるために使用できるツールまたは API はありますか (数字のシーケンスを一致させる必要があります)? [最長共通配列ライブラリのようなもの]