python - 確率と機械学習

Question

私はPythonを使って少し機械学習をしています。

2000 エントリの python nd 配列があります。各エントリには、いくつかの主題に関する情報があり、最後に、それらが吸血鬼であるかどうかを示すブール値があります。

配列内の各エントリは次のようになります。

[height(cm), weight(kg), stake aversion, garlic aversion, reflectance, shiny, IS_VAMPIRE?]

私の目標は、被験者について上記のデータが与えられた場合に、新しい被験者が吸血鬼である確率を与えることができるようにすることです.

私は sklearn を使用して機械学習を行いました。

clf = tree.DecisionTreeRegressor()

clf=clf.fit(X,Y)


print clf.predict(W)

ここで、W は新しいサブジェクトのデータの配列です。私が書いたスクリプトはブール値を返しますが、確率を返すようにしたいと思います。どうすれば変更できますか?

score 2 · Accepted Answer

リグレッサーの代わりに DecisionTreeClassifier を使用し、predict_probaメソッドを使用します。または、ロジスティック回帰を使用することもできます (scikit Learn でも利用できます)。

基本的な考え方は次のとおりです。

clf = tree.DecisionTreeClassifier()

clf=clf.fit(X,Y)


print clf.predict_proba(W)

score 0 · Accepted Answer

確率を与える分類器を使用したいとします。また、テスト配列 W で、データポイントがトレーニングデータの複製ではないことを確認する必要があります。トレーニングデータのいずれかと完全に一致する場合、それは間違いなく吸血鬼である、または間違いなく吸血鬼ではないと判断されるため、0 または 1 が返されます。

python - 確率と機械学習

4 に答える 4

Related

Reference