Python NLTK で Unicode テキストにタグを付けています。問題は、テキストが不適切にエンコードされたデータ ソースからのものであり、エンコーディングが指定されていないことです。少しいじった後、テキストはUTF-8でなければならないことがわかりました。入力文字列が与えられた場合:
s = u"The problem isn’t getting to Huancavelica from Huancayo to the north."
POS タグ付けなどのために NLTK で処理したいのですが、特殊文字が解決されず、次のような出力が得られます。
The/DT problem/NN isn’t/NN getting/VBG
それ以外の:
The/DT problem/NN isn't/VBG getting/VBG
これらの特殊文字からテキストをきれいにするにはどうすればよいですか?
フィードバックをお寄せいただきありがとうございます。
ムロン
更新:を実行するHTMLParser().unescape(s)
と、次のようになります。
u'The problem isn\u2019t getting to Huancavelica from Huancayo to the north.'
&
他のケースでは、テキストにやのようなものがまだ
表示されます。これを NLTK が理解できるものに変換するにはどうすればよいですか?