1

tweepy を使用してランダムなツイートを収集しています。英数字以外のツイートを除外したいと考えています。

しかし、チェックを行うには、まずツイートを文字列に変換する必要があります。例えば、

from tweepy import StreamListener
....

class sListener(StreamListener):
       def on_status(self,status):
            ....
            text = str(status.text)
            if not isAlphanumeric(text):
                ......

ただし、str() を使用してツイートを文字列自体に変換すると、ツイートが非 ASCII の場合、次のメッセージが表示されてエラーが発生します。

UnicodeEncodeError: 'ascii' codec can't encode character

そのため、非ASCIIをフィルタリングするために文字列に変換する必要があるループに陥っていますが、非ASCIIのために文字列に変換できません....

ツイートが何のデータ型なのかもわからない…

誰か助けてくれませんか?

4

3 に答える 3

0

試す

text = status.text.encode('utf8')
于 2016-10-18T13:05:08.653 に答える
0

あなたのつぶやきのエンコーディングはそうではないようですascii

試す

text = unicode(status.text)

それ以外の

text = str(status.text)
于 2013-01-17T15:42:59.067 に答える