0

過去数か月間、1000 種類の製品を販売したとしましょう。各製品の「パフォーマンス」(つまり、製品が生成する金額)を 5 分ごとに記録します。1 日は 5 分間が 288 セグメントあります。ログは次のようになります。

prod_1 | 2013-03-28 | 1 | 0
prod_1 | 2013-03-28 | 2 | 9.90
prod_1 | 2013-03-28 | 3 | 19.80
prod_1 | 2013-03-28 | 4 | 19.80
...
prod_1 | 2013-03-28 | 287 | 2326.5
prod_1 | 2013-03-28 | 288 | 2326.5

したがって、3 月 28 日に 235 ユニットを販売prod_1し、1 日を通して製品の進歩の曲線を描くことができます。各製品/日付のペアは、当社独自のオブジェクトです。つまり、同じ製品を販売する異なる日を関連付けることはありません。すべての製品について同じデータがあります。

2013-03-29新しい製品 - を追加するとしましょうprod_1001。この製品のログの最後の行は次のとおりです。

prod_1001 | 2013-03-29 | 153 | 804,6

質問:この特定の製品が 1 日の終わりに生み出す収益を予測するには、どのマシン アルゴリズムを使用すればよいでしょうか?

prod_1001 | 2013-03-29 | 288 | ???
4

2 に答える 2

2

これはアルゴリズムではありませんが、使用する可能性のあるモデルの種類について次の提案を行います。

  • 考えられるモデルの 1 つは、各タイム スライスに独立した販売数があるというものです。これをポアソン分布としてモデル化することはおそらく適切です。この期間に生成された金額は、ユニット * 販売価格です。
  • このようなモデルでは、prod_1001 のすべての観測値がポアソン パラメーターの尤度関数を提供します。最尤推定量は、観測されたすべてのタイム スライスにおける平均販売数です。この見積もりがあれば、新しいタイム スライスで販売するユニット数の予測分布が得られます。
  • 残りの日の予測を行うには、ポアソン パラメーターに 1 日の残りのタイム スライス数を掛けます。これにより、その日の残りの期間に販売するユニット数の分布が得られます。この分布の期待値はポアソン パラメーターそのものですが、他の量に関心があるかもしれません。
  • これに単価を掛けると、残りの 1 日の収益が得られます

したがって、今日までに prod_1001 のタイムスライスで平均 4 ユニットが販売された場合、次回の販売数の分布は Poisson(4) になります。製品が 4.99 ポンドで販売されている場合、次のタイムスライスで期待される収益は 19.96 ポンドであり、8*4.99 ポンド = 39.94 ポンド以上を稼ぐ可能性は 5% 未満です。今日 50 タイムスライスが残っている場合、今日はさらに 50*4*£4.99=£998 稼げると予想されます。

他の製品から収集した知識をどのように組み込むかを尋ねるかもしれません。これを行う最も簡単な方法は、それらを使用して、ポアソン パラメーターの事前ベイズを推定することです。これは、ポアソン率でガンマ分布の 2 つのパラメーターを推定することを意味し、そのための単純な基準は、他の 1000 の積の観測値の可能性を最大化することです。この事前分布を考慮して、積 1001 のポアソン分布でベイジアン推論を行います。これは、事後予測分布が閉じた形式であるため、非常に簡単です。

于 2013-03-29T09:38:27.537 に答える
0

専門家ではありませんが、これは時系列の問題であると感じています。私の知る限り、Mahout には時系列を実行するための具体的な機能はありません (質問に Mahout のタグを付けたので、これについて言及します)。

メーリング リストからのこれらのリンクは、この問題を明らかにするはずです: link1link2。2011年のものですが、情報は今でも通用すると思います。

基本的な要点は、Mahout にはそれがないということですが、そのようなことを実装してプロジェクトに貢献するか、R のようなタスクにより適した統計ソフトウェアを使用することができます(リンク)

于 2013-03-29T09:43:51.337 に答える