0

形式がわずかに異なるいくつかのスクレイピングされたデータがありますが、それを標準化するために、括弧が存在する場合は、括弧を含む括弧内のものを削除する必要があります。いろいろな方法でストリップを使用しようとしましたが、役に立ちませんでした。

いくつかのサンプルデータ:

Text (te)
Text Text (tes)
Text-Text (te)
Text Text
Text-Text (tes)

そして、標準化後にどのように表示する必要があるか:

Text
Text Text
Text-Text
Text Text
Text-Text

誰でも私にこれに対する解決策を提供できますか? ありがとう

4

2 に答える 2

5
from re import sub
x = sub("(?s)\(.*\)", "", x)

これにより、括弧 (改行を含む) と括弧自体の間のすべてが削除されます。

于 2013-09-26T21:18:33.130 に答える
4

括弧がネストされておらず、文字列ごとに最大で 1 つのペアがあると仮定して、これを試してください。

import re
myString = re.sub(r'\(.*\)', '', myString)

より具体的なパターンは次のとおりです。

myString = re.sub(r'\s*\(\w+\)\s*$', '', myString)

上記のパターンは、括弧式を囲む空白を削除し、行末からのみ削除します。

于 2013-09-26T21:16:35.663 に答える