python - Python 正規表現: 大文字で始まるすべての連続する単語に一致

Question

短い質問:

私は文字列を持っています:

title="Announcing Elasticsearch.js For Node.js And The Browser"

各単語が適切に大文字になっているすべての単語のペアを見つけたいです。

したがって、期待される出力は次のようになります。

['Announcing Elasticsearch.js', 'Elasticsearch.js For', 'For Node.js', 'Node.js And', 'And The', 'The Browser']

私が今持っているのはこれです：

'[A-Z][a-z]+[\s-][A-Z][a-z.]*'

これにより、出力が得られます。

['Announcing Elasticsearch.js', 'For Node.js', 'And The']

正規表現を変更して目的の出力を得るにはどうすればよいですか?

score 2 · Accepted Answer

これを使用できます：

#!/usr/bin/python
import re

title="Announcing Elasticsearch.js For Node.js And The Browser TEst"
pattern = r'(?=((?<![A-Za-z.])[A-Z][a-z.]*[\s-][A-Z][a-z.]*))'

print re.findall(pattern, title)

「通常の」パターンは重複する部分文字列と一致することはできません。すべての文字は一度だけ作成されます。ただし、先読み(?=..)(つまり、「フォローされている」) は単なるチェックであり、何にも一致しません。文字列を数回解析できます。したがって、先読み内にキャプチャグループを配置すると、重複する部分文字列を取得できます。

score 0 · Accepted Answer

現時点でのPythonコードがこれである場合

title="Announcing Elasticsearch.js For Node.js And The Browser"
results = re.findall("[A-Z][a-z]+[\s-][A-Z][a-z.]*", title)

次に、プログラムは奇数のペアをスキップしています。簡単な解決策は、次のように最初の単語をスキップした後にパターンを調査することです。

m = re.match("[A-Z][a-z]+[\s-]", title)
title_without_first_word = title[m.end():]
results2 = re.findall("[A-Z][a-z]+[\s-][A-Z][a-z.]*", title_without_first_word)

ここで、results と result2 を組み合わせるだけです。

python - Python 正規表現: 大文字で始まるすべての連続する単語に一致

3 に答える 3

Related

Reference