3

離散的および連続的な機能を含む例を分類しようとしています。また、この例はまばらなデータを表しているため、システムが 100 個の特徴でトレーニングされたとしても、この例には 12 個しかない場合があります。

これを達成するために使用する最適な分類アルゴリズムは何でしょうか? Bayes、Maxent、Decision Tree、および KNN を調べてきましたが、どれも正確に適合するかどうかはわかりません。私が見つけた最大の問題点は、ほとんどの実装がスパース データ セット、離散機能と連続機能の両方をサポートしていないことです。これらの基準に適合するアルゴリズムと実装 (できれば Python) を推奨できる人はいますか?

これまでに調べたライブラリには次のものがあります。

  1. オレンジ(主にアカデミック。実装はそれほど効率的でも実用的でもありません。)
  2. NLTK (これもアカデミックですが、Maxent の実装は優れていますが、継続的な機能は扱いません。)
  3. Weka (まだ調査中です。幅広いアルゴリズムをサポートしているようですが、ドキュメントが貧弱なので、各実装が何をサポートしているかは不明です。)
4

3 に答える 3

2

Weka (Java) はすべての要件を満たします。

ドキュメント、ガイド、ビデオ チュートリアルなどへのリンクのリストについては、このPentaho wikiを参照してください。

于 2010-03-23T23:22:54.183 に答える
2

ベクトル マシンをサポートしますか? libsvmは Python から使用でき、非常に高速です。

まばらなベクトル入力を処理し、一部の機能が連続していても気にしませんが、他の機能は -1/+1 だけです。(n 個の個別の機能がある場合、標準的なことは、それを n 個のバイナリ機能に展開することです。)

于 2010-03-23T16:47:59.833 に答える
2

Python 機械学習モジュールであるscikit-learnは、スパース データの確率的勾配降下法とサポート ベクター マシンをサポートします。

于 2012-01-02T09:28:53.173 に答える