問題タブ [classification]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
data-mining - RBFKernel による SMO の最適化 (C およびガンマ)
サポート ベクター マシンで RBF カーネルを使用する場合、C と γ の 2 つのパラメーターがあります。1 つの問題に対してどの C と γ が最適かは事前にわかりません。したがって、何らかのモデル選択 (パラメータ検索) を行う必要があります。目標は、適切な (C;γ) を識別して、分類器が未知のデータ (つまり、テスト データ) を正確に予測できるようにすることです。
weka.classifiers.meta.GridSearch
パラメータのペアを調整するためのメタ分類子です。ただし、完了するまでに時間がかかるようです (データセットがかなり大きい場合)。このタスクを完了するのに必要な時間を短縮するために何をすることをお勧めしますか?
A User's Guide to Support Vector Machines によると:
C : ソフトマージン定数。C の値を小さくすると、境界に近い点を無視できるようになり、マージンが増加します。
γ> 0 は Gaussian の幅を制御するパラメータです
java - スパース データの離散および連続分類器
離散的および連続的な機能を含む例を分類しようとしています。また、この例はまばらなデータを表しているため、システムが 100 個の特徴でトレーニングされたとしても、この例には 12 個しかない場合があります。
これを達成するために使用する最適な分類アルゴリズムは何でしょうか? Bayes、Maxent、Decision Tree、および KNN を調べてきましたが、どれも正確に適合するかどうかはわかりません。私が見つけた最大の問題点は、ほとんどの実装がスパース データ セットと、離散機能と連続機能の両方をサポートしていないことです。これらの基準に適合するアルゴリズムと実装 (できれば Python) を推奨できる人はいますか?
これまでに調べたライブラリには次のものがあります。
python - この単純な機械学習の問題に適したアルゴリズムは何ですか?
簡単な機械学習の質問だと思います。
基本的な問題は次のとおりです。新しいオブジェクトと、オブジェクトに関する説明のリストが繰り返し与えられます。例: new_object: 'bob'
new_object_descriptions: ['tall','old','funny']
。次に、なんらかの機械学習を使用して、過去に処理した 10 個以下の最も類似した説明を持つオブジェクトを見つける必要があります (例: past_similar_objects: ) ['frank','steve','joe']
。次に、これらのオブジェクトが実際に bob に似ているかどうかを直接測定できるアルゴリズムがあります (たとえば、 correct_objects: ) ['steve','joe']
。次に、分類子には、成功した一致のこのフィードバック トレーニングが与えられます。次に、このループが新しいオブジェクトで繰り返されます。a 疑似コードは次のとおりです。
ただし、使用できる分類子を制限する可能性のあるいくつかの規定があります。
この分類子には何百万ものオブジェクトが配置されるため、分類とトレーニングは何百万ものオブジェクト タイプに十分にスケーリングし、高速である必要があります。これは、スパムかスパムでないかの 2 つのタイプだけに最適なスパム分類器のようなものを失格にすると思います。(更新: 問題がある場合は、おそらくこれを数百万ではなく数千のオブジェクトに絞り込むことができます。)
繰り返しますが、何百万ものオブジェクトが分類されているときは、正確さよりも速度を好みます。
更新: 分類子は、過去のトレーニングからのフィードバックに基づいて、最も類似した 10 個 (またはそれ以下) のオブジェクトを返す必要があります。この制限がなければ、分類子が過去のすべてのオブジェクトを返すことができるため、明らかなチートになります:)
この目的のための適切で高速な機械学習アルゴリズムは何ですか?
注: calc_successful_matches 距離メトリックは計算に非常にコストがかかるため、高速な機械学習アルゴリズムを使用して、実際に高価な計算を行う前にどのオブジェクトが近くにあるかを推測しようとしています。
machine-learning - SVM の逐次最小最適化の収束の問題
Support Vector Machine に取り組んでから約 2 か月が経ちました。私は自分で SVM をコーディングしました。SVM の最適化問題には、John Platt 博士による逐次最小最適化 (SMO) を使用しました。
現在、自分のデータセットに最適な C 値を見つけるためにグリッド検索を行うフェーズにいます。(私のプロジェクト アプリケーションの詳細とデータセットの詳細については、こちらを参照してくださいSVM 分類 - 各クラスの入力セットの最小数)
2^0 から 2^6 の範囲の C 値について、カスタム実装された SVM の精度を正常にチェックできました。しかし、現在、C> 128 の SMO の収束に関していくつかの問題があります。C=128 のアルファ値を見つけようとしたのと同様に、実際に収束してアルファ値を正常に与えるまでに長い時間がかかります。
SMO が収束するのにかかる時間は、C=100 で約 5 時間です。これは大きいと思います (SMO は高速であるはずなので)。精度は高いのですが? Cのより高い値の精度をテストできないからではなく、私は正しくねじ込まれています.
私は実際に SMO のすべてのパスで変更されたアルファの数を表示しており、10、13、8... アルファが連続的に変化しています。KKT 条件は収束を保証しますが、ここで何が起こっているのでしょうか?
実行時間は長くなりますが、私の実装は C<=100 に対して良好な精度で正常に動作することに注意してください。
この問題に関する情報を教えてください。
ありがとうと乾杯。
machine-learning - 分類問題の偽のデータを生成するための最良の方法は何ですか?
私はプロジェクトに取り組んでおり、ユーザーのキーストローク時間データのサブセットを持っています。これは、ユーザーがn回試行することを意味し、これらの記録された試行時間データをさまざまな種類の分類アルゴリズムで使用して、将来のユーザーの試行で次のことを確認します。ログインプロセスは、ユーザーまたは他の人によって行われます。(簡単に言えば、これはバイオメトリクスだと言えます)
ユーザーログインの試行プロセスは3回ありますが、もちろんこれは無限データのサブセットです。
これまでは簡単な分類問題でしたが、WEKAを使用することにしましたが、私が理解している限り、分類アルゴリズムにフィードするために偽のデータを作成する必要があります。ユーザーの測定試行回数は1で、偽のデータは0になります。
いくつかの最適化アルゴリズムを使用できますか?または、この偽のデータを作成して最小の誤検知を取得する方法はありますか?
ありがとう
matlab - MATLAB での SVM の可視化
Matlab で SVM トレーニングを実行したら、SVM 分類を視覚化するにはどうすればよいですか?
これまでのところ、SVM を次の方法でトレーニングしただけです。
f# - 人工知能 (AI) を使用して株価を予測する
モトリーフール社の CAPS システムに非常によく似た一連のデータが与えられた場合、個々のユーザーがさまざまな株式の買いと売りの推奨事項を入力します。私がやりたいことは、それぞれの推奨事項を示し、それが将来の株価 (または eps など) の良い予測因子 <5> (つまり、相関係数 = 1) であったかどうか (1-5) を推測することです。または恐ろしい予測因子 (つまり、相関係数 = -1) またはその中間のどこか。
各レコメンデーションは特定のユーザーにタグ付けされるため、時間の経過とともに追跡できます。sp500 価格などに基づいて、市場の方向性 (強気/弱気) を追跡することもできます。モデルで意味があると思うコンポーネントは次のとおりです。
一部のユーザーは弱気相場よりも強気相場の方が優れており (逆もまた同様)、一部のユーザーはロングよりショートの方が優れており、上記の組み合わせです。市場の方向性とセクターを自動的にタグ付けできます (その時点の市場と推奨される株式に基づいて)。
考えられるのは、一連の画面を表示し、利用可能なデータの絶対値、マーケット、および特定の期間のセクター アウトのパフォーマンスを表示することで、個々の推奨事項をランク付けできるようにすることです。ランキングができるだけ客観的になるように、株式をランク付けするための詳細なリストに従います。私の推測では、1 人のユーザーが正しい確率は 57% に満たないということですが、誰にもわかりません。
システムをロードして、「レコメンデーションを 90 日先の株価の予測因子としてランク付けしましょう」と言うことができます。これは非常に明確な一連のランキングを表します。
ここで重要な点です。一連の時間のパターンを識別できるある種の機械学習アルゴリズムを作成して、推奨事項がアプリケーションに流れ込むときに、その株式のランキング (つまり、相関係数に似たもの) を維持したいと考えています。その推奨の可能性 (過去の一連の推奨に加えて) は、価格に影響します。
ここが超重要なポイントです。AI のクラスを受講したことも、AI の本を読んだこともありません。機械学習に特化したことは気にしません。そこで私はガイダンスを探しています - 私が適応できる同様のシステムのサンプルまたは説明。情報や一般的なヘルプを探す場所。または、開始するために正しい方向に私を押してください...
私の望みは、これを F# で実装し、機械学習の実装と、技術ポートフォリオまたはブログ スペースに含めることができる何か (アプリケーション/ソース) を使用して、F# の新しいスキル セットで友人を感動させることができるようにすることです。
事前にアドバイスをいただきありがとうございます。
machine-learning - 短いテキストを分類することを機械に学習させたい
私は 500 語程度の長さの短編小説をたくさん持っており、それらを 20 のカテゴリのいずれかに分類したいと考えています。
- エンターテイメント
- 食べ物
- 音楽
- 等
それらの束を手作業で分類することはできますが、最終的には機械学習を実装してカテゴリを推測したいと考えています。これにアプローチする最良の方法は何ですか?使用すべき機械学習への標準的なアプローチはありますか? 決定木はテキスト データなのでうまく機能しないと思います...私はこの分野ではまったくの初心者です。
どんな助けでも大歓迎です、ありがとう!
artificial-intelligence - 初心者向けリソース/分類アルゴリズムの概要
みんな。私は分類アルゴリズムのトピックにまったく慣れていないので、「真剣な読書」をどこから始めればよいかについて、いくつかの良い指針が必要です。私は現在、機械学習と自動分類アルゴリズムが私のアプリケーションに追加する価値のあるものであるかどうかを調べる過程にあります。
Z.MichalewiczとD.Fogelによる「HowtoSolveIt :Modern heuristics」 (特に、ニューロンネットワークを使用した線形分類器に関する章)をすでにスキャンしましたが、実用的な面では、現在WEKAツールキットのソースを調べています。コード。私の次の(計画された)ステップは、ベイズ分類アルゴリズムの領域に飛び込むことです。
残念ながら、私はこの分野での深刻な理論的基盤を欠いています(言うまでもなく、まだそれを何らかの方法で使用しています)ので、次にどこを見るべきかについてのヒントをいただければ幸いです。特に、利用可能な分類アルゴリズムの適切な紹介が役立ちます。より職人であり、理論家ではないほど、より実用的であり、より良い...
ヒント、誰か?