4

私は、性別、年齢、住所、教育年数、および各人の他の多くのパラメーターの構造化データを含む、多くの履歴書を含むデータベースを持っています。

サンプルの約 10% については、ある時点で彼らが行った特定の行動に関する追加データもあります。たとえば、ジェーンが 1998 年 7 月に住宅ローンを組んだとか、ジョンが 2007 年 1 月にパイロットの訓練を始めて 2007 年 12 月に免許を取得したとか。

各アクションについて、将来の時間の増分で各人に発生する確率を与えるアルゴリズムが必要です。たとえば、ビルが住宅ローンを借りる可能性は、2011 年には 2%、2012 年には 3.5% などです。

これにどのようにアプローチすればよいですか?回帰分析?SVM? ニューラルネット?他の何か?

明らかなカスタマイズだけで使用できる標準ツール/ライブラリさえあるのでしょうか?

4

3 に答える 3

1

Yが発生した場合にXが発生する確率は、ベイズ推定から外れていると思います。

于 2010-09-18T21:27:22.607 に答える
1

ルーの言うとおり、これは「ベイジアン推論」の場合です。

これを解決するための最適なツール/ライブラリは、R 統計プログラミング言語 (r-project.org) です。

R のベイジアン推論ライブラリを見てみましょう: http://cran.r-project.org/web/views/Bayesian.html

「サンプルの 10%」には何人が含まれていますか? 100 人程度を下回ると、有意な分析結果が得られない恐れがあります。1000 人以上の場合、結果はかなり良好になります (経験則)。

まず、データを R (r-project) にエクスポートし、必要なデータ クリーニングを行います。次に、R と高度な統計に詳しい人を見つけてください。彼はこれを非常に迅速に解決できます。または、自分で試してみてください。ただし、R は最初は時間がかかります。

于 2010-10-11T22:11:03.830 に答える
1

ツール/ライブラリの選択に関しては、Wekaを試してみることをお勧めします。これは、データ マイニング機械学習を試すためのオープン ソース ツールです。Weka には、データの読み取り、処理、およびフィルタリングのためのツールと、予測および分類ツールがいくつかあります。

ただし、有用な結果を得るためには、上記の分野での強力な基盤が必要です。

于 2011-12-09T11:01:14.357 に答える