PHP で preg_match_all を使用して、これらのそれぞれを独自のグループにキャプチャしたいと思います。
- 章、セクション、またはページ
- 指定された章、セクション、またはページの番号 (ある場合は文字)。それらの間に単一のスペースがある場合は、それを考慮する必要があります
- 「および」、「または」という言葉
文字列内の項目数は動的である可能性があることに注意してください。正規表現は以下のすべての例で機能するはずです。
- Ch1とSect2b
- Ch 4 x blahunwantedtext および Sect 5y および Sect6 z および Ch7 または Ch8
これは私がこれまでに思いついたものです:
<?php
$str = 'Ch 1 a and Sect 2b and Pg3';
preg_match_all ('/([a-z]+)([\s]?[0-9]+)([\s]?[a-z]*)([\s]?and*[\s]?)/is', $str, $matches);
Array
(
[0] => Array
(
[0] => Ch 1 a and
[1] => Sect 2b and
)
[1] => Array
(
[0] => Ch
[1] => Sect
)
[2] => Array
(
[0] => 1
[1] => 2
)
[3] => Array
(
[0] => a
[1] => b
)
[4] => Array
(
[0] => and
[1] => and
)
)
配列内の文字列 (Pg3) の最後の部分を一致させることができません。
期待される結果は次のとおりです。
Array
(
[0] => Array
(
[0] => Ch 1 a and
[1] => Sect 2b and
[2] => Pg3
)
[1] => Array
(
[0] => Ch
[1] => Sect
[2] => Pg
)
[2] => Array
(
[0] => 1
[1] => 2
[2] => 3
)
[3] => Array
(
[0] => a
[1] => b
[2] =>
)
[4] => Array
(
[0] => and
[1] => and
[2] =>
)
)