私は tweepy を使用して、プロジェクトの有名人に関するツイートをストリーミングおよびキャプチャしていましたが、データの半分が英語ではないことに気付きました (今のところ、分析のために英語にする必要があります)。それで、ツイートの言語に基づいてストリーミングをフィルタリングしたり、何らかの方法で同様のフィルターを十分に適用したりできる方法はありますか?
残念ながら、ストリーミング データには ISO 言語コードが含まれていないため、それを行う唯一の方法は言語を直接検出することだと思います (この回答が役立つ場合があります)。ストリーミングしているデータの量によっては、最初にデータを保存してから、言語を検出して不要なものをすべて破棄する 2 番目のプロセスが必要になる場合があります。