現在、TwitterStreamingAPIを試しています。すべてが魅力のように機能しますが、APIは私に大量のデータを送信します。これは私が必要としないものです。APIから送信されたデータをフィルタリングする可能性はありますか?
次のストリームを使用しています:https ://stream.twitter.com/1.1/statuses/filter.json
現在、TwitterStreamingAPIを試しています。すべてが魅力のように機能しますが、APIは私に大量のデータを送信します。これは私が必要としないものです。APIから送信されたデータをフィルタリングする可能性はありますか?
次のストリームを使用しています:https ://stream.twitter.com/1.1/statuses/filter.json
APIのフィルターストリームを見てください:
Twitterを追跡するためのフィルターとして一連のキーワードを入力できます。現在の制限に従って、最大400個のキーワードを追跡できます。
ツイートを取得した後、ノイズの多いデータを削除するために、手動でフィルタリングを再度行う必要があります。
したがって、一連のキーワードで探しているものを指定できれば、目的を達成できます。ただし、単純なキーワードフィルタリングでは、smtgを正確に定義することはほとんど不可能であるため、データには常にノイズが含まれます。
たとえば、XYZという名前のブランドに関連するすべてのツイートを追跡するとします。ブランドに関するツイートを取得するためにXYZ
、「XYZ」のみを含む1語のキーワードセットがある場合があります。APIはXYZ
あなたに含まれるすべてのツイートを提供しますが、「XYZ」は一部の言語で意味を持ち、その言語を話す人々はその単語についてツイートし、あなたもそれを受け取ると想定します。また、XYZという都市があり、人々がチェックインメッセージを送信するとします。そのため、その時点で、言語検出またはコンテキスト情報検索のいずれかによって、トピックに関連しないツイートを除外する必要があります。ただし、重要なのは、取り上げたいトピックに関するキーワードセットを指定することです。
乾杯。
答えは「いいえ」です。「自分で手動で検索する以外に、フィルターで指定した3つのキーワードのどれにツイートが対応しているかを検出する方法はありますか?」手動で行う必要があります..
バックタイプストームプロジェクトを見てください。twitter4jを使用してAPIをフィルタリングする例があります。