0

SSAS で単純なロジスティック回帰モデルをトレーニングしました。性別と NIC を個別の入力ノードとして使用し (NIC は非喫煙者の場合は 0、喫煙者の場合は 1)、スコア (0-100) を連続出力ノードとして使用します。

新しい参加者の性別と NIC の値に基づいてスコアを予測したいと考えています。もちろん、DMX でシングルトン クエリを実行できます。たとえば、次は 49.51... の値を生成します。

  SELECT Predict(Score) 
  FROM [MyModel]
  NATURAL PREDICTION JOIN 
  (SELECT 'M' AS Gender, '1' AS NIC) as t

しかし、DMX を使用する代わりに、SSAS から「切断」されている間にスコアを計算するために、モデルから を作成したいと考えています。

モデルを調査すると、出力ノードの NODE_DISTRIBUTION に次の情報があります。

  ATTRIBUTE_NAME   ATTRIBUTE_VALUE    SUPPORT PROBABILITY    VARIANCE       VALUETYPE
  Gender:F         0.459923854        0       0              0              7 (Coefficient)
  Gender:M         0.273306289        0       0              0              7 (Coefficient)
  Nic:0            -0.282281195       0       0              0              7 (Coefficient)
  Nic:1            -0.802106901       0       0              0              7 (Coefficient)
                   0.013983007        0       0              0.647513829    7 (Coefficient)
  Score            75.03691517        0       0              0              3 (Continuous

これらの係数をロジスティック回帰式に当てはめます -- 私は新しいユーザーとしてアップロードすることを許可されていません :) -- 上記の喫煙男性の例では、

  f(...) = 1 / (1 + exp(0 - (0.0139830071136734   -- Constant(?)
    + 0 * 0.459923853918008                       -- Gender:F = 0
    + 1 * 0.273306289390897                       -- Gender:M = 1
    + 1 * -0.802106900621717                      -- Nic:1 = 1
    + 0 * -0.282281195489355)))                   -- Nic:0 = 0

結果は 0.374 の値になります....しかし、この値を 0 ~ 100 のスコア分布に戻すにはどうすればよいでしょうか? つまり、上記の式を拡張して、DMX シングルトン クエリと同じ値を生成するにはどうすればよいでしょうか? Score ディストリビューションの stdev と mean が必要になると思いますが、これらの値を正確に使用する方法にこだわっています。また、5 行目の ATTRIBUTE_VALUE を定数として正しく使用しているかどうかもわかりません。

あなたが提供できるどんな助けも大歓迎です!

4

2 に答える 2

1

私は専門家ではありませんが、ロジスティック回帰をまったく使用したくないように思えます。線形回帰をトレーニングしたいと考えています。現在、ロジスティック回帰モデルがあります。これらは通常、連続値、つまり 0 ~ 100 ではなく、バイナリ分類に使用されます。

SAS で線形回帰を行う方法

ウィキペディア: 線形回帰

詳細: 質問は、ほとんどのデータマイニング/機械学習の問題と同様に、実際にはデータに依存します。データがバイモーダルで、トレーニング セットの 90% 以上が 1 または 100 に非常に近い場合、ロジスティック回帰が使用される可能性があります。ロジスティック回帰で使用される方程式は、YES/NO の回答をレンダリングするように特別に設計されています。これは技術的には連続関数であるため、.34 などの結果が生じる可能性がありますが、統計的にはほとんどありません (通常の使用法では、0 に切り捨てます)。

ただし、データが正規分布している場合 (ほとんどの自然はそうです)、より良い方法は線形回帰です。唯一の問題は、特に悪いデータ ポイントが与えられた場合、0 ~ 100 の範囲外を予測できることです。この場合、丸め (結果を 0 ~ 100 にクリップする) をオフにするか、データ ポイントを外れ値として無視することをお勧めします。性別の場合、簡単なハックは、男性を 0 に、女性を 1 にマッピングし、性別をモデルの入力として扱うことです。

SSAS 線形回帰

于 2012-06-15T03:00:23.097 に答える
0

区間[0,100]に制限されたスコアをモデル化しようとしている場合は、ロジスティック回帰を使用したくありません。ロジスティック回帰は、二項データまたは二項分布に基づく比率のいずれかをモデル化するために使用されます。ロジスティック回帰で実際にモデル化しているロジットリンク関数が確率(オッズの対数)の関数であると仮定すると、プロセス全体が間隔[0,1]の値を提供するように調整されます。これを使用してスコアにマッピングしようとすることは、適切なタイプの分析ではないようです。

さらに、近似モデルがターゲット間隔[0,100]の範囲外の値を生成できるため、通常の線形回帰がどのように役立つかわかりません。また、この範囲への値のアドホックな切り捨てを実行する必要がある場合は、あなたのデータが効果的な意味を持っていることを本当に確認してください?

あなたが必要とする分析の種類を指摘できるようにしたいと思いますが、私はこの種類の分析に遭遇していません。あなたへの私のアドバイスは、ロジスティック回帰アプローチを放棄し、プロの統計家や数学者が使用するALLSTATメーリングリストに参加して、そこでアドバイスを求めることを検討することです。または同様のもの。

于 2012-06-15T22:17:01.147 に答える