研究プロジェクトとして、Python-Twitter を使用してツイートを収集しています。ただし、プログラムを 1 台のコンピューターで 1 週間ノンストップで実行すると、1 週間に約 20 MB のデータしか収集できません。同じツイートを 2 回収集しないように、このプログラムを 1 台のマシンでのみ実行しています。
このプログラムは、60 秒ごとに getPublicTimeline() を呼び出すループを実行します。パブリック タイムラインに表示された一部のユーザーに対して getUserTimeline() を呼び出して、これを改善しようとしました。ただし、これにより、毎回約30分間、ツイートの収集がまったく禁止されました. 禁止がなくても、このコードを追加することによるスピードアップはほとんどないように見えました。
ユーザーが 1 時間あたりにより多くのリクエストを送信できるようにする、Twitter の「ホワイトリスト」について知っています。私は約 3 週間前にこれを申請しましたが、それ以来何の連絡もありません。そのため、私たちのプログラムが標準のレート制限を超えることなく、より効率的にツイートを収集できる代替手段を探しています。Twitter から公開ツイートをすばやく収集する方法を知っている人はいますか? 週に約 100 MB を取得したいと考えています。
ありがとう。