正規表現に問題があり、角かっこで囲まれた強みを削除しています。
これが私のコードです:
import sys, re
import codecs
reload(sys)
sys.setdefaultencoding('utf-8')
reader = codecs.open("input",'r','utf-8')
p = re.compile('s/[\[\(].+?[\]\)]//g', re.DOTALL)
# i've also tried several regex but it didn't work
# p = re.compile('\{\{*?.*?\}\}', re.DOTALL)
# p = re.compile('\{\{*.*?\}\}', re.DOTALL)
for row in reader:
if ("(" in row) and (")" not in row):
continue
if row.count("(") != row.count(")"):
continue
else:
row2 = p.sub('', row)
print row2
入力テキストファイルの場合、次のようになります。
가시 돋친(신랄한)평 spinosity
가장 완전한 (같은 종류의 것 중에서) unabridged
(알코올이)표준강도(50%) 이하의 underproof
(암초 awash
치명적인(fatal) capital
열을) 전도하다 transmit
必要な出力は次のようになります。
가시 돋친평 spinosity
가장 완전한 unabridged
표준강도 이하의 underproof
치명적인 capital