0

私は現在 2 つのチュートリアルに従っていますが、どちらも稼働しており、それらから多くのツイート/感情スコアを取得しています。

1) Azure での Twitter ストリーム分析 https://azure.microsoft.com/en-us/documentation/articles/stream-analytics-twitter-sentiment-analysis-trends/

2) Spark ストリーミングによる Twitter 分析http://ampcamp.berkeley.edu/3/exercises/realtime-processing-with-spark-streaming.html

apps.twitter.com から提供されている無料の oauth ツールを使用しています。

問題 Spark Streaming アプリで getPlace と getGeoLocation を試しましたが、取得したすべてのツイートでこれら 2 つのフィールドに null 値が設定されています。getPlace と get GeoLocation の値のみを持つツイートのフィルタリングを試みましたが、両方で null を取得しました (アプリをほぼ 20 分間実行しました)。

また、Azure アプリで TimeZone を取得しようとしました (そのため、ある種の地理データを取得できます)。それでも、TimeZone の null 値を取得し続けました。

考えられる障害 1) 無料の Twitter API は場所/地理位置情報を除外するので、最終的により優れた API へのサブスクリプションを購入することになりますか?

2) geoLocation/Places を含むツイートを明示的に検索する必要がありますか? すべてのツイートを取得してから、geoLocation/Places を持つツイートを除外するのではなく? その場合、Spark Streaming でこの検索を実行できますか?これは、Spark Streaming にあるコードです。

val stream = TwitterUtils.createStream(ssc, None, filters) 
val hashTags = stream.map(status => Tweet(status.getPlace().getName(), classifyTweet(status.getText())))

お手伝いありがとう!

4

1 に答える 1

0

私は個人的に無料の Twitter API を使用して場所を取得し、PowerBi のマップに公開しました。したがって、最初の障害を除外できます。

注意すべきことの 1 つは、場所フィールドは、クライアントがアプリケーションに場所の取得を明確に許可している場合にのみ使用できることです。これにより、場所が見つかることはほとんどありません。私のサンプル データの位置を含むデータの比率は約 8% でした。

スパーク側の答えはありません。最初の可能性を除外するのを手伝いたかっただけです。

お役に立てれば。

于 2015-11-11T07:31:37.297 に答える