私はMongoDBを使用していますが、最終的に2つのコレクションになりました(意図せず)。
最初のコレクション (サンプル) には、次の構造を持つ 1 億件のレコード (ツイート) があります。
{
"_id" : ObjectId("515af34297c2f607b822a54b"),
"text" : "bla bla ",
"id" : NumberLong("314965680476803072"),
"user" :
{
"screen_name" : "TheFroooggie",
"time_zone" : "Amsterdam",
},
}
2 番目のコレクション (users) には、ツイート コレクションからの 3,000 万件のユニーク ユーザーのレコードが含まれており、次のようになります。
{ "_id" : "000000_n", "target" : 1, "value" : { "count" : 5 } }
ここで、users コレクションの _id はつぶやきコレクションの user.screen_name であり、ターゲットはステータス (スパマーかどうか) であり、最後に value.count は最初のコレクション (サンプル) コレクションに表示されたユーザーの数です (例: numberキャプチャされたツイートの
ここで、次のクエリを作成したいと思います。
ユーザーがターゲット値 = 1 を持つサンプル コレクション (ツイート) からすべてのドキュメントを返したい
つまり、たとえば、すべてのスパマーのすべてのツイートを返したいとします。