4

Twitter の公開タイムラインに依存する Web アプリケーションは、どのくらいの頻度でデータを収集しますか? 毎分何十万ものメッセージがあるはずですよね?どのようにして、すべてのツイートを逃さずに集めることができるのでしょうか?

4

4 に答える 4

2

publictimeline は、もはやデータをマイニングするのに最適な場所ではありません。Twitter は現在、そのストリーミング APIを使用して、狂ったようにツイートを出力しています。publictimelineに最も近いのはスプリッツァー法ですが、これには小さなサンプルしか含まれていません。スプリッツァー方式以外のすべて (またはそれ以上) のツイートを収集する必要がある場合は、すべての公開ツイートを返すファイアホース フィードなど、他のストリーミング API (HTTP プッシュ) フィードにアクセスするための書面による契約に署名する必要があります

于 2009-05-26T03:06:04.233 に答える
1

ここに行きます:

http://twitter.com/help/request_whitelisting

1 時間あたり 100 リクエストでは不十分な場合は、アカウントをホワイトリストに登録してください (1 時間あたり 20,000 を許可)。

@ceejayoz 100 GET リクエストではなく、verify_credentials や rate_limit_status などのいくつかのリクエストを除いて、一般に 100 リクエストです。

于 2009-05-24T22:13:45.050 に答える
1

前述のように、Twitter API はレート制限されています。パブリック タイムライン (twitter.com/public_timeline) は同じ意味でレート制限されていませんが、5 秒ごとにしか更新されないため、ほとんどのツイートは表示されません。

Twitter の完全なフィードと呼ばれているように、Firehose にアクセスできる企業は 3 つまたは 4 つあると思います。FriendFeed はその 1 つです。もう一つはGnipです。Gnip はフィードを他の企業に転売します。これはおそらく、完全な Twitter フィードを取得する唯一の実行可能な方法です。

于 2009-05-24T02:06:34.407 に答える