python - 文字列の先頭から連続した文字を削除します

Question

ウィキペディアの参照の先頭にあることがあるアルファベット文字を取り除くのが最善でしたか？

例：From

abcdスターウォーズエピソードIII：シスの復讐（DVD）。20世紀フォックス。2005年。

に

スターウォーズエピソードIII：シスの復讐（DVD）。20世紀フォックス。2005年。

私はうまくいく解決策を一緒にハックしましたが、不格好なようです。私のバージョンでは、「^（?: a（？：b（？：c）？）？）？」の形式の正規表現を使用しています。それを行うための適切で迅速な方法は何ですか？

a = list('abcdefghijklmnopqrstuvwxyz')
reg = "^%s%s" % ( "".join(["(?:%s " %b for b in a]), ")?"*len(a) )
re.sub(reg, "", "a b c d Wikipedia Reference")

score 1 · Accepted Answer

HTMLを処理するのではなく、Webページのテキストをコピーして貼り付ける場合、質問で述べたようないくつかの問題は避けられません。ただし、 htmllibを使用してhtml（以下に示す関連行）を処理すると、（ ccに寄与する）のような項目を単位として削除できます。[編集： htmllibが非推奨になっていることがわかりました。適切な代替品はわかりませんが、HTMLParserだと思います。]

表示される行は少し似ています

^ ^a ^b ^c ^d ^e スターウォーズエピソード3ジョージ・ルーカス、リック・マッカラム、ロブ・コールマン、ジョン・ノール、ロジャー・ガイエットをフィーチャーしたシスDVD解説の復讐[2005]

行のhtmlソースは

<li id="cite_note-DVDcom-13">^ <a href="#cite_ref-DVDcom_13-0">a</a> <a href="#cite_ref-DVDcom_13-1">b</a> <a href="#cite_ref-DVDcom_13-2">c</a> <a href="#cite_ref-DVDcom_13-3">d</a> <a href="#cite_ref-DVDcom_13-4">e</a> Star Wars: Episode III Revenge of the Sith DVD commentary featuring George Lucas, Rick McCallum, Rob Coleman, John Knoll and Roger Guyett, [2005]</li>

score 1 · Accepted Answer

正規表現で文字クラスを使用するのはどうですか。

re.sub('^([a-z] )*', '', ...)

これにより、単一のアルファベット文字とそれに続く単一のスペースの先頭の出現箇所がいくつでも削除されます。

score 1 · Accepted Answer

私はおそらくこのようなことをするでしょう：

title = re.sub(r'^([a-z]\s)*', '', 'a b c d Wikipedia Reference')

それはあなたがそこに持っているものと同じことをします。ただし、@ joran-beasleyが指摘しているように、複雑なケースにはもっと賢いものが必要になる場合があります。

score 0 · Accepted Answer

タイトルの前にスペースを入れた4つの余分な文字があるというパターンに常に従っていますか？もしそうなら、あなたはこれを行うことができます：

s = "a b c d Star Wars Episode III: Revenge of the Sith (DVD). 20th Century Fox. 2005."
if all([len(x) == 1 and x.isalpha() for x in s.split()[0:4]]):
    print s[8:]

python - 文字列の先頭から連続した文字を削除します

4 に答える 4

Related

Reference