0

nltk で NLP を学習するための練習テキストとして、Tolkein の Silmarillion を使用しようとしています。

テキスト エンコーディングの問題が発生しているため、開始できません。

私は NLTK の周りで TextBlob ラッパー ( https://github.com/sloria/TextBlob ) を使用しています。TextBlog は次の場所で入手できます。

私が解析できない文は次のとおりです。

"But Húrin did not answer, and they sat beside the stone, and did not speak again".

問題を引き起こしているのは、フリンの特殊なキャラクターだと思います。

私のコード:

from text.blob import TextBlob
b = TextBlob( 'But Húrin did not answer, and they sat beside the stone, and did not speak again' )
b.noun_phrases

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 1: ordinal not in range(128)

これは単なる趣味のプロジェクトなので、このテキストを使用していくつかの属性を抽出し、いくつかの基本的な処理を実行できるようにしたいだけです。

初期エンコーディングがわからない場合、このテキストを ASCII に変換するにはどうすればよいですか? UTF8 からデコードしてから、ASCII に再エンコードしようとしました。

>>> asc = unicode_text.decode('utf-8')
>>> asc = unicode_text.encode('ascii')

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 10: ordinal not in range(128)

でもそれでも心配いりません。任意の提案を歓迎します。ドキュメント全体で一貫して行われている限り、特殊文字が失われても問題ありません。

必要なモジュールも正しくインストールされたpython 2.6.8を使用しています。

4

1 に答える 1