python - 中引用符内の文字列の一致

Question

score 2 · Accepted Answer

文字クラスを使用すると、うまくいくか、すべてが壊れる可能性があります。

matchquotes = re.findall(r'[“”"](?:\\[“”"]|.)*?[“”"]', text)

一致するペアが常に並んでいることをあまり気にしない場合は、おそらくこれで目的が達成されるでしょう。他の 2 つのタイプの中で 3 番目のタイプを使用する場合は、いくつかのパターンを作成してそれらの共通点を見つけない限り、常にあなたを困惑させます。

score 1 · Accepted Answer

実行している他の処理と、テキストがどこから来ているかによっては、すべての引用符を " に変換する方が、ケースごとに処理するよりも適切です。

score 0 · Accepted Answer

私は専門家ではありませんが、これらのタイプの「派手な」引用については、最初にテーブルから \xe2 \x80\x9cまたは\u2019のようなコードを取得します。次に、正規表現コードを書いてそれらを一致させようとします。そのためには、これが役立つかもしれません: http://www.regular-expressions.info/refunicode.html

それが役立つことを願っています！

python - 中引用符内の文字列の一致

3 に答える 3

Related

Reference