ウィキペディアの参照の先頭にあることがあるアルファベット文字を取り除くのが最善でしたか?
例:From
abcdスターウォーズエピソードIII:シスの復讐(DVD)。20世紀フォックス。2005年。
に
スターウォーズエピソードIII:シスの復讐(DVD)。20世紀フォックス。2005年。
私はうまくいく解決策を一緒にハックしましたが、不格好なようです。私のバージョンでは、「^(?: a(?:b(?:c)?)?)?」の形式の正規表現を使用しています。それを行うための適切で迅速な方法は何ですか?
a = list('abcdefghijklmnopqrstuvwxyz')
reg = "^%s%s" % ( "".join(["(?:%s " %b for b in a]), ")?"*len(a) )
re.sub(reg, "", "a b c d Wikipedia Reference")