私は現在 2 つのチュートリアルに従っていますが、どちらも稼働しており、それらから多くのツイート/感情スコアを取得しています。
1) Azure での Twitter ストリーム分析 https://azure.microsoft.com/en-us/documentation/articles/stream-analytics-twitter-sentiment-analysis-trends/
2) Spark ストリーミングによる Twitter 分析http://ampcamp.berkeley.edu/3/exercises/realtime-processing-with-spark-streaming.html
apps.twitter.com から提供されている無料の oauth ツールを使用しています。
問題 Spark Streaming アプリで getPlace と getGeoLocation を試しましたが、取得したすべてのツイートでこれら 2 つのフィールドに null 値が設定されています。getPlace と get GeoLocation の値のみを持つツイートのフィルタリングを試みましたが、両方で null を取得しました (アプリをほぼ 20 分間実行しました)。
また、Azure アプリで TimeZone を取得しようとしました (そのため、ある種の地理データを取得できます)。それでも、TimeZone の null 値を取得し続けました。
考えられる障害 1) 無料の Twitter API は場所/地理位置情報を除外するので、最終的により優れた API へのサブスクリプションを購入することになりますか?
2) geoLocation/Places を含むツイートを明示的に検索する必要がありますか? すべてのツイートを取得してから、geoLocation/Places を持つツイートを除外するのではなく? その場合、Spark Streaming でこの検索を実行できますか?これは、Spark Streaming にあるコードです。
val stream = TwitterUtils.createStream(ssc, None, filters)
val hashTags = stream.map(status => Tweet(status.getPlace().getName(), classifyTweet(status.getText())))
お手伝いありがとう!