-4

ダッシュで区切られた場合、(音声を表す) 文を取得する正規表現は何ですか? 問題は、そのようなセンテンスが通常のセンテンスに挿入されることがあるため、両側のダッシュで区切られることです。ただし、ダッシュで開き、ピリオドで閉じる場合もあります。さらに、話された文を引き立たせるためにダッシュが常に使用されるとは限りません。キャプチャする必要がある部分は括弧内に入れられます (申し訳ありませんが、文章はリトアニア語です)。

[- Dilze, -] šaukė ji be jokios intonacijos, pabrėžtinumo ar skubos, tarsi nesitikėdama atsakymo. [- Dilze!]
Dilzė atsakė ir liovės barškinusi rykais, stovinčiais ant krosnies, bet dar nespėio pereit per virtuvę, kai ponia Kompson pašaukė dar kartą, o kol ji perėjo per valgomąjį ir kyštelėjo galvą į tą pilką lango šviesą, - dar vieną kartą.
[- Einu, einu, -] atsakė Dilzė. [- Aš čia. Pripilsiu ją, kai tik vanduo sušils, -] pasikaišė sijoną ir ėmė kopti laiptais, visai užstodama tą pilką šviesą. [- Padėkit ją antžemės ir grįžkite į lovą.]
4

3 に答える 3

1

Pythonreでは、Unicode文字プロパティをサポートしていませんが、サポートregexしています。

regex.findallパターンで使用

(?m)-\s*\p{Lu}.*?(?:-|[.,!?]\s*$)
于 2012-11-18T23:47:21.087 に答える
-1

私が理解しているように、ドットが任意の行末になる可能性がある場所で始まり[-、終わるものすべてに一致する正規表現を探しています。.]

正規表現\[\-.*?[\-\.\!]\]はこれを行います。この部分[\-\.\!]は、末尾の接頭辞を付けることができるすべての文字を定義します]。真ん中の質問マークは、正規表現が貪欲でないことを確認しますが、これがうまくいくかどうかは正規表現の実装に固有です。

于 2012-11-18T23:48:50.707 に答える