c# - 分析サービスを使用せずに、離散データ値と連続データ値を持つデータセットを 2 つのグループのいずれかに分割しますか?

Question

次のスキームのテーブルがあるとします (注: この例は架空のものですが、実際の使用例は似ています)。

Type      | Name         | Notes
=====================================================================================
Gender    | Gender       | Either Male or Female (not null)
GeoCoord  | Location     | Lattitude and longitude coordinates
string    | FullName     | 
Date      | BirthDate    | 
bool?     | LikesToParty | Data from a survey (null for people who didn't answer)

LikesToPartyと他の値の特定の構成との間に強い相関関係があることを私が知っているデータを手動で見る. たとえば、ミドルネームが Wells で、15 歳から 30 歳の LA 地域出身の男性は、ほぼ確実に LikeToParty に当てはまります。アンケートに回答しなかったユーザーの LikesToParty の値を予測したいと思います。

分析サービスのような高価なパッケージを購入せずに、C# を使用してこのデータをマイニングするにはどうすればよいですか? C# 用の無料のライブラリはありますか?

上記の例で説明したほとんどの機能を備えたニューラルネットワークを既に作成しましたが、トレーニングが非常に遅く、これが正しい方法かどうかはわかりません。データをセグメント化するための、より効率的で優れた方法があるのではないでしょうか?

score 2 · Accepted Answer

離散データと連続データの両方を使用しているため、決定木 (C4.5、CART) を使用する場合があります。それらのために実装されたライブラリがいくつかあります。Java のIKVM実装を使用できるため、Java ライブラリには注意しないでください。たとえば、C#のWeka API を使用しました。

score 2 · Accepted Answer

あなたが説明しているのは、データ分類と呼ばれる機械学習の標準的な問題です。

データ分類の方法には、ニューラルネットワーク (ご指摘のとおり)、サポートベクターマシン (LIBSVM などを参照)、デシジョンツリー (前の回答で述べたとおり) が含まれます。これらのタイプのメソッドからの出力は非常に正確ですが、解釈が難しい場合があります。また、ベイジアンネットワークのような確率的グラフィカルモデルを調べて、次のようなより深い質問に答えることもできます。たとえば、南カリフォルニア出身で、パーティーが好きな男性が 20 代半ばである確率はどれくらいかということです。

c# - 分析サービスを使用せずに、離散データ値と連続データ値を持つデータ セットを 2 つのグループのいずれかに分割しますか?

2 に答える 2

Related

Reference

c# - 分析サービスを使用せずに、離散データ値と連続データ値を持つデータセットを 2 つのグループのいずれかに分割しますか?