nltk で NLP を学習するための練習テキストとして、Tolkein の Silmarillion を使用しようとしています。
テキスト エンコーディングの問題が発生しているため、開始できません。
私は NLTK の周りで TextBlob ラッパー ( https://github.com/sloria/TextBlob ) を使用しています。TextBlog は次の場所で入手できます。
私が解析できない文は次のとおりです。
"But Húrin did not answer, and they sat beside the stone, and did not speak again".
問題を引き起こしているのは、フリンの特殊なキャラクターだと思います。
私のコード:
from text.blob import TextBlob
b = TextBlob( 'But Húrin did not answer, and they sat beside the stone, and did not speak again' )
b.noun_phrases
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 1: ordinal not in range(128)
これは単なる趣味のプロジェクトなので、このテキストを使用していくつかの属性を抽出し、いくつかの基本的な処理を実行できるようにしたいだけです。
初期エンコーディングがわからない場合、このテキストを ASCII に変換するにはどうすればよいですか? UTF8 からデコードしてから、ASCII に再エンコードしようとしました。
>>> asc = unicode_text.decode('utf-8')
>>> asc = unicode_text.encode('ascii')
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 10: ordinal not in range(128)
でもそれでも心配いりません。任意の提案を歓迎します。ドキュメント全体で一貫して行われている限り、特殊文字が失われても問題ありません。
必要なモジュールも正しくインストールされたpython 2.6.8を使用しています。