2 つ (または 1 つ) の有用な部分を持つデータのコレクションを解析しようとしていますが、さまざまな方法で編成されている可能性があります。
V01C01
Vol 1 Chapter 1
Chapter 1 Volume 1 - Alt title
V1.1
etc.
物事がどのように整理されるかのすべての組み合わせを予測する方法がないため、正規表現の膨大なコレクションを使用したくありません (また、無関係なテキストが含まれる場合もあります)。これに最適な機械学習のブランチがあるように感じますが、私はそれを知るのに十分な経験がありません.