投稿の分析要件があります。つまり、特定の投稿について、それにほとんど関連する投稿のリストを返す必要があります。ロジックは、投稿内の一般的なタグの数を比較しています。例えば:
postA = {"author":"abc",
"title":"blah blah",
"tags":["japan","japanese style","england"],
}
次のようなタグが付いた他の投稿があるかもしれません:
postB:["japan", "england"]
postC:["japan"]
postD:["joke"]
基本的に、postA のタグと比較すると、postB は 2 カウント、postC は 1 カウントを取得します。postD は 0 になり、結果には含まれません。
今のところ私の理解は、マップ/リデュースを使用して結果を生成することです.マップ/リデュースの基本的な使用法は理解していますが、この特定の目的のための解決策を見つけることはできません.
何か助けはありますか?または、それを解決するためのカスタムソート機能のようなより良い方法はありますか? 私は現在python開発者であるため、pymongodbを使用しています。