regex - 「Index」という単語と、それに続く二重の cr または lf までのすべての行を含む正規表現はどれですか?

Question

PDFregex を使用して PDF ドキュメントからインデックスを抽出し、DB の参照エントリとして機能させたいと考えています。インデックスは (予想されるように) すべて index という単語で始まりますが、(moslty0 ダブルキャリッジリターンで終わります。どの正規表現を使用すればよいでしょうか?

score 0 · Accepted Answer

これを試して：

Index(.|\s)*?(?=(?:\n\r|\n|\r){2})

# Index                 --> Find `Index`
# (.|\s)*?              --> Followed by any string including linefeeds (? to make it not greedy)
# (?=(?:\n\r|\n|\r){2}) --> Stop at (the first) double linefeed:

# (?=)       --> Positive lookahead: Matches if the previous is followed by it's contents.
# (?:)       --> Non-capturing group.
# \n\r|\n|\r --> Linefeeds: Windows or LF or CR
# {2}        --> Exactly 2 of the previous.

コード内で、ドットが.改行と一致することを必ず指定してください。

regex - 「Index」という単語と、それに続く二重の cr または lf までのすべての行を含む正規表現はどれですか?

1 に答える 1

Related

Reference