4

私は、ニュース記事を解析し、それらの中から最適なものを判断する必要があるプロジェクトに取り組んでいます。記事の品質を判断するには、記事の長さ、Facebook の共有/リツイート、記事が投稿されてからの時間という 3 つの主要なパラメーターが必要であることがわかりました。

私が今直面している問題は、3 つのパラメーターすべてを数学関数にまとめて、各記事のスコアを計算するにはどうすればよいかということです。それらのそれぞれに割り当てられたスコアは、記事をランク付けしてユーザーに表示するのに役立ちます。

また、品質を判断する際に考慮する必要がある他のパラメーターがあれば教えてください。

4

2 に答える 2

0

あなたが望むものは驚くほど簡単に達成できます。興味のある種​​類のデータが必要です: データの増加と減少。増加するデータは、増加する限り「良い」と見なされます。データの減少は、ゼロに近いほど「良い」と見なされます。

4 つのデータセットはすべて単純な整数であることがわかります。

増加するデータ

  • 共有: 正の整数s \in N_0(ゼロから無限大までのすべての整数)
  • リツイート: 正の整数r \in N_0

減少するデータ

データを減らすには、絶対値をメトリックとして使用します。

  • t_0記事のタイムスタンプ (unix など) とします。
  • Tを現在のタイムスタンプにします。
  • 「最良l_0」と見なされる記事の長さを示すようにします。
  • 記事Lの実際の長さを示します。

それで:

  • 時間:|t_0 - T|ゼロに近いほど良い
  • 長さ:|l_0 - L|ゼロに近いほど良い

絶対値は正の整数であるため、次のようになります。

|l_0 - L| + |t_0 - T||t_0 - T| がゼロに|l_0 - L|近いほどゼロに近くなります。

数が増えても同じです。

したがって、記事が「正しい」長さで新しいものである可能性が高いほど、この数値はゼロに近づきます。

結論

減少する数に対する増加する数の商は、それ自体が増加しています。分母が小さいほど、商は大きくなります。分子が大きいほど、商は大きくなります。

つまり、「より良い」と見なされた場合、商

(s+r) / (|l_0 - L| + |t_0 - T|)

上昇します。

これは必ずしも整数ではありません。

強化

シェアやリツイートの上昇を和らげることができるので、 を使うことでスコアが少し「自然」になりlnます。

ln(s+r) / (|l_0 - L| + |t_0 - T|)

exp分母を柔らかくするために使用できます。

ln(s+r) / exp(-(|l_0 - L| + |t_0 - T|))

于 2017-06-04T19:40:42.080 に答える