テキストファイルの発音区別符号を削除しようとしています。自分で作成したのではなく、ツールを使用してPDFをテキストに変換しました。彼らがどのエンコーディングを使用しているか理解できませんでした。テキストは、スペイン語に正統的に精通しているナワトル語で書かれています。
テキストを文字列のリストに変換しました。いいえ、私は次のことをしようとしています:
# check whether there is a not-ascii character in the item
def is_ascii(word):
check = string.ascii_letters + "."
if word not in check:
return False
return True
# if there is a not ascii-character encode the string
def to_ascii(word):
if is_ascii(word) == False:
newWord = word.encode("utf8")
return newWord
return word
私が取得したいのは、私の文字列のユニコードバージョンです。これまでは機能せず、latin1、cp1252、iso-8859-1などのいくつかのエンコーディングを試しました。私が得たのは、誰かが私が間違ったことを教えてもらえますか?
どうすれば正しいエンコーディングを見つけることができますか?
ありがとうございました!
編集:私はコンバーター(pdf-txt)を開発した人々に手紙を書きました、そして彼らは彼らがすでにユニコードを使っていると言いました。したがって、ジョン・マチンは彼の答えに(1)が正しかった。Eclipseデバッガーでは、リスト自体がユニコードでいくつかの兆候を示していたのに、そうでないものもあったため、私にはわかりませんでした。そして、アイテムを別々に見ると、それらはすべて何らかの方法でデコードされているので、実際にユニコードを見ました。
ご協力ありがとうございました!