2

私は次のような機械学習の問題に取り組んでいます:

入力変数

 Categorical

   a

   b

   c

   d

 Continuous

   e

出力変数

Discrete(Integers)
    v
    x
    y

Continuous
    z

私が直面している大きな問題は、出力変数が互いに完全に独立しているわけではなく、それらの間に確立できる関係がないということです。つまり、依存関係はありますが、因果関係によるものではありません(一方の値が高いということは、もう一方の値も高くなることを意味するわけではありませんが、他の値が高くなる可能性は高くなります)

例は次のとおりです。

v-広告の表示回数

x-広告クリック数

y-コンバージョン数

z-収益

現在、広告がクリックされるには、最初に検索に表示される必要があるため、クリックはインプレッションに多少依存します。

繰り返しになりますが、広告を変換するには、最初にクリックする必要があるため、変換はクリックに多少依存します。

したがって、各出力変数を予測する問題の4つのインスタンスを実行することは、私には意味がありません。実際、暗黙の依存関係を処理して、4つすべてを一緒に予測する方法があるはずです。

しかし、ご覧のとおり、直接的な関係はありません。実際、関与している可能性はありますが、手動で解決することはできません。

さらに、出力変数はカテゴリではありませんが、実際には離散および連続です。

この問題を解決する方法に関する入力。また、同じものの既存の実装と、ソリューションを迅速に実装するために使用するツールキットについても説明します。

ランダムな推測-この問題はベイジアンネットワークの対象になると思います。どう思いますか ?

4

1 に答える 1

0

あなたの場合、ベイジアンネットワークはうまくいきます。ネットワークもそれほど大きくないため、グラフ消去やジャンクション ツリーなどの正確な推論アルゴリズムを使用できます。BN を使用する場合は、Kevin Murphy の BN ツールボックスを使用できます。これがそのリンクです。近似モンテカルロ推論にギブス サンプリングを使用するより一般的なツールボックスの場合、BUGSを使用できます。

編集:

例として、こちらの有名なスプリンクラーの例を見てください。完全離散変数の場合、リンクのように条件付き確率テーブルを定義します。たとえば、今日が曇りだとすると、雨が降る確率は 0.8 だとします。グラフが因果関係を示すすべての確率分布を定義します (つまり、雲の場合は雨など)。次に、クエリとして、推論アルゴリズムに次のような質問をします。曇っていたのか、雨が降っていたのか、スプリンクラーが作動していたのかなど。

BN を使用するには、因果関係 (有向非巡回グラフ) と確率遷移の観点から記述されたシステム モデルが必要です。システム パラメータを知りたい場合は、EM アルゴリズムなどの手法があります。ただし、グラフ構造を学習するのは非常に難しい作業であり、その場合は教師あり機械学習アプローチの方がうまく機能します。

于 2012-06-04T19:00:29.230 に答える