以下を見てください。
/home/kinka/workspace/py/tutorial/tutorial/pipelines.py:33: Warning: Incorrect string
value: '\xF0\x9F\x91\x8A\xF0\x9F...' for column 't_content' at row 1
n = self.cursor.execute(self.sql, (item['topic'], item['url'], item['content']))
文字列'\xF0\x9F\x91\x8A
は、実際には 4 バイトの Unicode:u'\U0001f62a'
です。mysql の文字セットは utf-8 ですが、4 バイトの Unicode を挿入すると、挿入された文字列が切り捨てられます。私はそのような問題をグーグルで検索し、5.5.3 未満の mysql は 4 バイトの Unicode をサポートしていないことを発見しました。残念ながら、私のものは 5.5.224 です。mysql サーバーをアップグレードしたくないので、python で 4 バイトの unicode をフィルタリングしたいだけで、正規表現を使用しようとしましたが失敗しました。それで、何か助けはありますか?