2

私は膨大な数のストーリーを持つウェブサイトに取り組んでいます。あらゆる形式のストーリー: テキスト、ビデオ、写真、その他のマルチメディア要素。ストーリーはさまざまな基準でフィルタリングできます。その中には、明らかに最新のストーリーが最初に含まれる「新しい」ストーリー、手動で特集としてマークされる「注目の」ストーリー、アルゴリズムを考え出す必要がある「人気のある」ストーリーなどがあります。

これまでのところ、私がやっていることは、Facebookのいいね、共有数(Facebook、Twitter、またはその他の共有の両方を含む)とビュー数の平均を取ることです. しかし、これは私には良く見えません。ソーシャル スパムなどの理由から、3 つの指標すべてに年齢を均等に加重することは本物に聞こえないためです。

ストーリーの人気度をランク付けするための非常に優れたアルゴリズムを楽しみにしています。

- - 添加 - - -

人気アルゴリズムでは、「いいね」のみに基づくアルゴリズムについて説明します。このアルゴリズムは、結果をタイムスタンプのカテゴリ (日、週、月の人気) に分類することに基づいています。一方、これには私のクエリにほぼ答える答えがありますが、メトリックがそこで想定されているため正確ではありません。本物の説明を含む正確なメトリックを探しています。たとえば、「facebook *2」の場合は、なぜ *2 が facebook なのかの説明が付きます。今は重複していないことを願っています!


4

1 に答える 1

3

回帰アルゴリズムを使用することをお勧めします。最も広く使用されているのは線形回帰ですが、そのモデルが適合しない場合は、自由に他のモデルを探索してください。

  1. まず、各ストーリーの特徴を決定します。あなたの機能は、いいね、ツイート、シェア、ビューなどです。また、各タイプ (ビデオ/写真/...) にブール インジケーター (値が 0 または 1 のみの変数) を追加します。
  2. 次に、トレーニング セットを作成します。これは、あなた (または他の人間の専門家) がスコアを付けた一連のストーリーです。
  3. ここで、これらの機能とトレーニング セットを使用して、いくつかの回帰アルゴリズムを使用して、既にスコアリングした例に必要な機能を最適に適合させるモデルを作成します。1
  4. モデルを作成したら、それを使用して他のすべてのドキュメントにスコアを付けることができます。

スパマーの検出について - 異常検出アルゴリズムを試すことができます


(1) 実際には、ステップ 2 と 3 は一緒に行うことができます - アクティブな回帰手法を使用して - アクティブな回帰では、学習者 (アルゴリズム) は、アルゴリズムをできるだけ速く学習させる例を尋ねます。私の実験によると、 PAliceは非常に優れたアクティブ回帰アルゴリズムです。

于 2014-03-10T08:49:10.087 に答える