ツイートなどのソーシャル メディア データをマイニングしようとしています。ただし、ソーシャル メディアのデータには多くのノイズがあります。たとえば、人々が有名人について話し合ったり、映画/テレビ/曲を引用したりしています。これは、最も一般的には、自分自身や実際に個人的に知っている人に関するものではありません。
つまり、最も人気のある現在の有名人に関する動的な (つまり、自動的に更新される) データベースはありますか? 彼らが出演している映画の名言や、彼らが歌っている歌詞も関連性があります。
ツイートなどのソーシャル メディア データをマイニングしようとしています。ただし、ソーシャル メディアのデータには多くのノイズがあります。たとえば、人々が有名人について話し合ったり、映画/テレビ/曲を引用したりしています。これは、最も一般的には、自分自身や実際に個人的に知っている人に関するものではありません。
つまり、最も人気のある現在の有名人に関する動的な (つまり、自動的に更新される) データベースはありますか? 彼らが出演している映画の名言や、彼らが歌っている歌詞も関連性があります。
そのような精選されたリストは存在しないと思います。ウィキペディアのトップ 100 の映画の引用など、より小さなものは存在します。ただし、これらは更新されません。
1 つの可能性は、 Deliciousなどのトレンドを追跡する別のソーシャル メディア サイトに表示される入力の側面を除外することです。トレンドを探しているのでない限り、2 つのトレンド サイトのトップに上がるようなものは、単なるトレンドです。
デリシャスには、その API 用の優れたPython ラッパーがあります。
Pythonic 疑似コードでは、
data = social-media.content
data = filter(lambda datum: datum not in delicious.content-list,data)