1
4

3 に答える 3

2

文字クラスを使用すると、うまくいくか、すべてが壊れる可能性があります。

matchquotes = re.findall(r'[“”"](?:\\[“”"]|.)*?[“”"]', text)

一致するペアが常に並んでいることをあまり気にしない場合は、おそらくこれで目的が達成されるでしょう。他の 2 つのタイプの中で 3 番目のタイプを使用する場合は、いくつかのパターンを作成してそれらの共通点を見つけない限り、常にあなたを困惑させます。

于 2012-10-31T06:08:08.630 に答える
1

実行している他の処理と、テキストがどこから来ているかによっては、すべての引用符を " に変換する方が、ケースごとに処理するよりも適切です。

于 2012-10-31T06:04:36.290 に答える
0

私は専門家ではありませんが、これらのタイプの「派手な」引用については、最初にテーブルから \xe2 \x80\x9cまたは\u2019のようなコードを取得します。次に、正規表現コードを書いてそれらを一致させようとします。そのためには、これが役立つかもしれません: http://www.regular-expressions.info/refunicode.html

それが役立つことを願っています!

于 2012-10-31T06:35:10.600 に答える