毎日の「いいね」数を記録しているFacebookページのコレクションがあります。
最も急速に成長しているものを特定したいと思います。問題は、いいねの数が少ないページといいねの数が多いページの「ノイズ」を削除する方法を考えていることです。
ここでやろうとしていることに対する一般的なテクニックやアプローチはありますか?
毎日の「いいね」数を記録しているFacebookページのコレクションがあります。
最も急速に成長しているものを特定したいと思います。問題は、いいねの数が少ないページといいねの数が多いページの「ノイズ」を削除する方法を考えていることです。
ここでやろうとしていることに対する一般的なテクニックやアプローチはありますか?
多かれ少なかれ統計的に正しい (そして単純な) 答えは次のとおりです。
1回目の計測がxいいね、2回目がyいいねだとすると、
次に、成長の自然対数の推定値は次のように与えられます。
sqrt(1 / x + 1 / y) の誤差推定値を持つ log(y / x)
しかし、成長の保守的な見積もりに関心があるため、〜 5% の信頼区間などを使用する必要があります。したがって、次の関数を使用してデータセットをランク付けすることをお勧めします。log(y / x) - 2 * sqrt(1 / x + 1 / y)
例えば:
1 から 10 への成長は 0.2 のスコアを取得します
100 から 400 への増加は 1.16 のスコアを取得します
10000 から 15000 への増加は 0.38 のスコアを取得します
この推定器の重要な特性の 1 つは、たとえば 10000 から 100000 への成長が 1000 から 10000 への成長よりも高くランク付けされ、100 から 1000 への成長よりも高くランク付けされることです。
1つの可能性は、パーセンテージと絶対数の両方を考慮に入れた成長の総合的なメトリックを作成することです。
1日目のいいねの数の10を底とする対数を取り、それを成長率で乗算して、この「成長ランク」に到達することをお勧めします。
「最終メトリック」を見ると、重要と見なされる成長の最大数と、重要とは見なされない成長の数が少なくなっています。
成長率に適用される何らかの重み付けが必要です。log(B/10) をお勧めします。したがって、ランク付けするメトリックは次のとおりです。
score = log(B/10) * C
そこの定数項と対数ベースを試すことができます。現在、これを行うための優れたツールは google です。たとえば、これを google 検索に入力して、重み付け関数のプロットを表示します。
y = log(x/10)
または、gnuplot のコピーを取得します。