4

一定期間内にツイートした国からのツイートをすべて取得するプロジェクトに取り組んでいます。その後、データマイニングを行います(ある生徒に対してどれだけ前向きな考えが言われているのかなどを調べます)。プログラミング言語としてJavaを使いたい。しかし、私はこのプロジェクトを開始する方法がわかりません。私は検索を行いましたが、次のことがわかっています。

ある国からのすべてのツイートを一定期間内に取得し始めることができる場所(特定の州からのものである可能性がある場合)。いくつかの例は次のようなものです。ユーザー名を指定すると、公開プロファイルの場合はツイートが返されます。すべての公開プロファイルのリストを持っているわけではありません。その問題をどのように処理する必要がありますか?

何か案は?

4

3 に答える 3

7

Java を使用する場合は、Twitter4j が最適です。

ただし、必要なツイートを取得するための戦略を選択する必要があります。

Twitter 自体からデータを取得するか、Firehose に完全にアクセスできるデータ プロバイダーからデータを取得できます。DataSift と Gnip は Firehose にフル アクセスできるプロバイダーです。

自分でデータを取得する場合。

  • まず、ツイートをリアルタイムで取得したい場合は、Twitter Streaming API を使用する必要があります。Twitter4j を使用すると、非常に簡単に使用できます。しかし、残念ながら、ストリーミング API は国または言語のフィルタリングをサポートしていません。検索のためにストリーミング API をリッスンできます。あなたが登録しているクエリ。

  • 2 番目のオプションは Search API です。Twitter4j を使用すると、Search API も非常に簡単に使用できます。Search API は、より多くのフィルタリング オプションをサポートしています。しかし、ツイートを国でフィルタリングする方法はありませんそれを行うための便利な方法。たとえば、en、fr などのツイートをフィルタリングします。

お役に立てれば。

于 2012-07-21T22:52:38.087 に答える
0

検索 APIを使用したい。ただし、API では、国による検索は許可されておらず、ジオコードによる検索のみが許可されています。

于 2012-07-19T06:04:34.227 に答える