2

ショッピングサイトがあります。簡単な予測モデルを構築して、ユーザーが1回の訪問で特定の商品を購入する可能性(各ページで費やした時間、出身地、赤字のレビュー数など)を予測します。ページを残すなど。

Ruby on Rails、Python、またはJavaでこのタスクに使用できるツールは何ですか?ロジスティック回帰、線形回帰などの典型的な統計モデリング手法は、このコンテキストで機能しますか?

ありがとうございました。

4

1 に答える 1

4

私は問題を分類問題に還元しようとします-そして答えを得るために既存のツールを学習する機械を使用します。

そのために必要な手順は次のとおりです。

  1. データを使用して、そこから定義された機能を抽出します。機能には、たとえば、訪問したページ数やWebサイトで費やした時間、またはデータから抽出できるその他のものがあります。
  2. 「予測」(分類)する機能を定義します。簡単な例は次のとおりです。製品を購入する(製品の購入から始めましょう。後でそれを強化することができます)。
  3. トレーニングセットを作成します。トレーニングセットには、できるだけ多くの分類された例が含まれています。(例:ユーザーが5つの異なるページにアクセスし、4分間過ごした、既知の分類:製品を購入しなかった)。
  4. この情報があれば、既存の分類アルゴリズムを実行して、分類されていないユーザーの機能だけを考えて、何をしたかを予測することができます。

これに使用できるいくつかのアルゴリズムの短いリスト:

  1. SVM-直感的ではありません-しかし、利用可能な多くの最良の分類アルゴリズムによって考慮されています。
  2. K最近傍法-非常に直感的でプログラミングが簡単で、トレーニングセットを繰り返し簡単に増やすことができますが、機能の数が多い場合は通常、不適切な決定です。
  3. デシジョンツリーアルゴリズム、特にC4.5:非常に高速な分類が可能であり、結果のツリーは直感的で人間が読みやすくなっています。

Ruby on RailsやPythonツールについてはわかりませんが、Javaには、これらの分類アルゴリズムなどを備えたWekaというオープンソースプロジェクトがあります。

ノート:

トレーニングセットで交差検定を使用することにより、アルゴリズムを評価し、混同行列(アルゴリズムがどれだけ正しいか、どれだけ間違っているか、およびその方法を評価する)を取得できます。

于 2012-05-11T12:41:37.267 に答える