1
import pdb
input_file_eng = open('engltreaty.txt')
word_list_eng = input_file_eng.read()
pure_word_list_eng = word_list_eng.strip("\n").strip("\r").strip('-').strip('.').strip(',').strip('(').strip(')').strip('[').strip(']')
pdb.set_trace()
input_file_eng.close() 

ブレークポイントで、文字列pure_word_list_engを調べますが、まだ'['、']'、 "\ n" "\ n\n"が含まれています。

以下はテキストファイルです。

グレートブリテンおよびアイルランド連合王国の彼女のマジェスティビクトリア女王は、ニュージーランドの先住民族の首長および部族の王室の好意に関して、彼らの正当な権利と財産を保護し、平和と秩序の享受を確保することを切望しています。すでにニュージーランドに定住している多数の陛下の主題と、ニュージーランドの原住民との治療を適切に許可された機能を構成し任命するためにまだ進行中のヨーロッパとオーストラリアの両方からの移民の急速な拡大の結果として必要です陛下の認識のために」■これらの島々の全体または一部に対する主権の権威-したがって、陛下は、ネイティブと同様に必要な法律や制度の欠如から生じなければならない邪悪な結果を回避する目的で、定住形態の市民政府を設立することを望んでいます。人口と彼女の主題に、ウィリアム・ホブソンが英国海軍領事館の船長であり、ニュージーランドのそのような地域の副知事が、連邦政府を招待するために陛下に譲り渡されることを喜んで認めてくれました。ニュージーランドの独立した首長は、以下の条項と条件に同意します。

第1条[第1条]ニュージーランド部族連合国の首長と、連合のメンバーになっていない独立した独立した首長は、すべての権利と権力を留保することなく、英国女王陛下に割譲します。上記の連合または個々の首長がそれぞれ行使または所有する主権の、またはその唯一の主権としてそれぞれの領土を行使または所有することになっている可能性があります。

第2条[第2条]イングランド女王陛下は、ニュージーランドの首長と部族、およびそれぞれの家族と個人に対して、土地と地所の森林漁業とその他の財産の完全な独占的かつ邪魔されない所有を確認し、保証します。所有しているものを保持したいという彼らの希望と願望である限り、集合的または個別に所有することができます。しかし、連合部族の首長と個々の首長は、その所有者がそれぞれの所有者と陛下によって任命された人との間で合意された価格で疎外するために処分される可能性があるような土地に対する独占的先制権を陛下に譲ります。その代わりに彼らと一緒に治療する。

第3条[第3条]それを考慮して、英国女王陛下はニュージーランドの先住民に彼女の王室の保護を拡大し、英国の主題のすべての権利と特権を彼らに与えます。

(署名)ウィリアム・ホブソン、副知事。

したがって、私たちニュージーランド部族連合国の首長は、ワイタンギのビクトリアで議会に集まり、ニュージーランドの独立した独立した首長は、それぞれの名前の後に指定された部族と領土に対する権限を主張しました。前述の条約の規定を完全に理解し、それぞれ指定された場所と日付に署名またはマークを付けた証人として、その規定を完全な精神と意味で受け入れ、締結します。私たちの主の年の2月のこの6日目にワイタンギで行われました。

4

3 に答える 3

5

ドキュメントから:

先頭と末尾の文字が削除された文字列のコピーを返します。

str.replace()代わりに試してください。

于 2012-09-17T23:26:49.990 に答える
4

str.translate を試す

string.translate(s, table[, deletechars])
deletechars (存在する場合) にある s からすべての文字を削除し、table を使用して文字を翻訳します。これは、各文字値の翻訳を与える 256 文字の文字列でなければなりません。その序数によって索引付けされます。table が None の場合、文字削除ステップのみが実行されます。

それで

pure_word_list_eng = word_list_eng.translate(None, "\n\r-.,()[]")
于 2012-09-17T23:36:31.147 に答える
3

Ignacio が述べたようstr.strip()に、文字列の先頭と末尾からのみ文字を削除します。str.replace()、または正規表現を使用したこの代替手段を使用する必要があります。

import re
pure_word_list_eng = re.sub(r'[-\n\r.,()]+', '', word_list_eng)
于 2012-09-17T23:34:21.693 に答える