5

私のプロジェクトは、アラビア語で肯定的または否定的な感情 (感情分析) を識別することです。このタスクを実行するには、NLTK と Python を使用しました。アラビア語でツイートを入力すると、エラーが発生します。

>>> pos_tweets = [(' أساند كل عون أمن شريف', 'positive'),
              ('ما أحلى الثورة التونسية', 'positive'),
              ('أجمل طفل في العالم', 'positive'),
              ('الشعب يحرس', 'positive'),
              ('ثورة شعبنا هي ثورة الكـــرامة وثـــورة الأحــــرار', 'positive')]
Unsupported characters in input

どうすればこの問題を解決できますか?

4

2 に答える 2

3

あなたの問題はIDLEシェルから来ました。AFAIK IDLEは、イン​​タラクティブモードでのUTF-8入力を受け入れません。

DreamPiePythonWinなどの代替(およびより優れた)シェルを使用することをお勧めします。

于 2013-03-04T17:20:46.263 に答える
3

UTF-8Pythonコードに入力するために通常行う簡単なハックがあります。なぜ機能するのかわかりませんが、Unicode 文字列を受け入れ、次の行を追加するとスクリプトがスムーズに実行されます。

#! /usr/local/bin/python  -*- coding: UTF-8 -*-

pos_tweets = [(u' أساند كل عون أمن شريف', 'positive'), 
(u'ما أحلى الثورة التونسية', 'positive'), 
(u'أجمل طفل في العالم', 'positive'), 
(u'الشعب يحرس', 'positive'), 
(u'ثورة شعبنا هي ثورة الكـــرامة وثـــورة الأحــــرار', 'positive')] 

for i in pos_tweets:
  print i[0], i[1]
于 2013-03-05T03:08:14.407 に答える