質問する
1267 次
3 に答える
2
文字クラスを使用すると、うまくいくか、すべてが壊れる可能性があります。
matchquotes = re.findall(r'[“”"](?:\\[“”"]|.)*?[“”"]', text)
一致するペアが常に並んでいることをあまり気にしない場合は、おそらくこれで目的が達成されるでしょう。他の 2 つのタイプの中で 3 番目のタイプを使用する場合は、いくつかのパターンを作成してそれらの共通点を見つけない限り、常にあなたを困惑させます。
于 2012-10-31T06:08:08.630 に答える
1
実行している他の処理と、テキストがどこから来ているかによっては、すべての引用符を " に変換する方が、ケースごとに処理するよりも適切です。
于 2012-10-31T06:04:36.290 に答える
0
私は専門家ではありませんが、これらのタイプの「派手な」引用については、最初にテーブルから \xe2 \x80\x9cまたは\u2019のようなコードを取得します。次に、正規表現コードを書いてそれらを一致させようとします。そのためには、これが役立つかもしれません: http://www.regular-expressions.info/refunicode.html
それが役立つことを願っています!
于 2012-10-31T06:35:10.600 に答える