python - 二重カウントせずにクエリからツイートをカウントする方法は?

Question

クエリのパラメーターを満たすツイートの数をカウントする必要があるプロジェクトに取り組んでいます。私は Python で作業しており、Twitter へのインターフェイスとして Twython を使用しています。

いくつか質問がありますが、どのツイートがすでに説明されているかをどのように記録しますか? 単純に最後のツイート ID を書き留めて、それとそれ以前のすべてを無視しますか? --これの最も簡単な実装は何ですか?

最適化に関するもう 1 つの質問として、カウンターが見逃すツイートの量を最小限に抑えたいのですが、これを確認する方法はありますか?

本当にありがとう。

score 1 · Accepted Answer

セットの使用を検討することもできます。重複を防ぎます。

いくつかの擬似コード:

s = set()
for tweet in tweets:
   s.add(tweet.id)

score 0 · Accepted Answer

類似のツイートとリツイートの場合を考慮して、ツイート全体のセマンティックノートを作成し、各ツイートのテキスト部分を抽出して辞書検索を行うことをお勧めします。しかし、ツイート ID はより単純であり、上記のように使用法が大幅に失われます。

2 に答える 2