収集される一連の文字列があり、一部はアクセント付きです (例: é
)。基本的な ASCII のさまざまな文字 (URL 用) を使用して、それぞれのバージョンを作成したいと考えています。同様の問題の他の例をたくさん見つけました。次のように機能させることができます。
from unidecode import unidecode
unidecode(u"Café")
ただし、csv/googledoc/similar から取得した一連の文字列にこれを適用することに興味があります。
この場合、私が想定する行動方針は、次のようなものでユニコードであることを宣言することです。
from_google_doc = "Café"
a = unicode(fromgoogledoc,'utf-8')
ただし、これは utf8 が位置 3 のバイト 0x82 をデコードできないというエラーを返します。
私はこれを試しました:
a = unicode("Café",'iso-8859-1')
これは機能しますが、unidecode に渡されると、é
.
これが初歩的なものである場合はお詫びします。私の研究/いじりはどこにも行きませんでした...私はPythonにかなり慣れておらず、エンコーディングにもかなり慣れていません!