1

次のスキームのテーブルがあるとします (注: この例は架空のものですが、実際の使用例は似ています)。

Type      | Name         | Notes
=====================================================================================
Gender    | Gender       | Either Male or Female (not null)
GeoCoord  | Location     | Lattitude and longitude coordinates
string    | FullName     | 
Date      | BirthDate    | 
bool?     | LikesToParty | Data from a survey (null for people who didn't answer)

LikesToPartyと他の値の特定の構成との間に強い相関関係があることを私が知っているデータを手動で見る. たとえば、ミドルネームが Wells で、15 歳から 30 歳の LA 地域出身の男性は、ほぼ確実に LikeToParty に当てはまります。アンケートに回答しなかったユーザーの LikesToParty の値を予測したいと思います。

分析サービスのような高価なパッケージを購入せずに、C# を使用してこのデータをマイニングするにはどうすればよいですか? C# 用の無料のライブラリはありますか?

上記の例で説明したほとんどの機能を備えたニューラル ネットワークを既に作成しましたが、トレーニングが非常に遅く、これが正しい方法かどうかはわかりません。データをセグメント化するための、より効率的で優れた方法があるのではないでしょうか?

4

2 に答える 2

2

離散データと連続データの両方を使用しているため、決定木 (C4.5、CART) を使用する場合があります。それらのために実装されたライブラリがいくつかあります。Java のIKVM実装を使用できるため、Java ライブラリには注意しないでください。たとえば、C#のWeka API を使用しました。

于 2010-07-23T15:36:21.787 に答える
2

あなたが説明しているのは、データ分類と呼ばれる機械学習の標準的な問題です。

データ分類の方法には、ニューラル ネットワーク (ご指摘のとおり)、サポート ベクター マシン (LIBSVM などを参照)、デシジョン ツリー (前の回答で述べたとおり) が含まれます。これらのタイプのメソッドからの出力は非常に正確ですが、解釈が難しい場合があります。また、ベイジアン ネットワークのような確率的グラフィカル モデルを調べて、次のようなより深い質問に答えることもできます。たとえば、南カリフォルニア出身で、パーティーが好きな男性が 20 代半ばである確率はどれくらいかということです。

于 2010-07-27T06:11:41.813 に答える