問題タブ [supervised-learning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - WEKA : 「欠落している」「該当しない」数値データを区別する方法は?
私はWEKAが初めてです。
私のデータセットには、タイプが数値である属性があります。データセットには、「欠損値」および「該当なし」として表される特定の値があります。
例えば
0 - 欠損値 99999 - 該当しないことを表す
「欠損値」は「?」で表すことができますが、「該当なし」はどうでしょうか。
私の質問は次のとおりです:- 1)平均または標準偏差の計算に「該当なし」の値を含めないようにWEKAにどのように指示できますか? 2) 「該当なし」の値は分類結果にどのように影響しますか?
ありがとうございました。
machine-learning - 線形回帰: 予測子の非数値離散ドメインを数値 1 に置き換える
したがって、トレーニング セットがあり、属性の 1 つのドメインは次のとおりです。
ドメインがその形式のままである場合、数学的仮説が機能しない可能性があるため、線形回帰を適用できません。
H = TxA + T1xB + T2xC + ...
(つまり、A 属性を除くすべての属性が数値であると仮定すると、実数値パラメーターに type を乗算することはできません)
ドメインを数値、等価、離散値に置き換えて、この問題に対して線形回帰を実行して問題ないようにすることはできますか?
これはベストプラクティスですか?そうでない場合は、そのような状況での代替案を教えてください。
machine-learning - 深層学習技術を用いた教師あり学習(文書分類)
私は深層学習に関する論文を読んでいました。それらのほとんどは、教師なし学習に言及しています。
彼らはまた、ニューロンは教師なし RBM ネットワークを使用して事前に訓練されているとも述べています。その後、逆伝播アルゴリズム (教師あり) を使用して微調整されます。
では、深層学習を使用して教師あり学習の問題を解決できるのでしょうか??
ドキュメント分類の問題に深層学習を適用できるかどうかを調べています。かなり優れた分類器が利用できることは知っています。しかし、私の目標は、この目的に深層学習を使用できるかどうかを調べることです。
machine-learning - 教師なし学習で DropOut が使用されないのはなぜですか?
ドロップアウトを使用する論文のすべてまたはほぼすべてが、教師あり学習にドロップアウトを使用しています。ディープオートエンコーダー、RBM、および DBN を正則化するのと同じくらい簡単に使用できるようです。では、教師なし学習でドロップアウトを使用しないのはなぜでしょうか?
machine-learning - 関数の合計の値を予測するデータ モデルを設計する
私はデータマイニングプロジェクトに取り組んでおり、次のモデルを設計する必要があります。
x1、x2、x3、x4 の 4 つの機能と、これらに定義された 4 つの関数を指定しました。
各機能が利用可能な機能のサブセットに依存するような機能。
例えば
F1(x1, x2) =x1^2+2x2^2
F2(x2, x3) =2x2^2+3x3^3
F3(x3, x4) =3x3^3+4x4^4
これは、F1 が機能 x1、x2 に依存する関数であることを意味します。F2 は、x2、x3 などに依存する機能です。
これで、x1、x2、x3、x4 の値がわかっているトレーニング データ セットが利用可能になり、sum(F1+F2+F3) { 合計はわかりますが、関数の個別の合計はわかりません)
これらのトレーニング データを使用して、すべての関数の総和を正しく予測できるモデルを作成する必要があります。つまり、(F1+F2+F3)
私はデータマイニングと機械学習の分野は初めてなので、この質問があまりにも些細なことや間違っている場合は、事前にお詫び申し上げます。私はそれを多くの方法でモデル化しようとしましたが、それについて明確な考えが得られていません. これに関して何か助けていただければ幸いです。
android - Weka を使用したリアルタイムの教師あり学習 (Android フォン)
加速度計のデータを使用して、ユーザーが行っているアクティビティ (単純なアクティビティ) を予測 (試行) したいと考えています。は単一のトレーニング インスタンスで、xn はクラス ラベルです。トレーニング後、データを取り込んで変換し、アクティビティの分類をリアルタイム (またはそれに近い) で出力したいと考えています。
まず、提案はありますか?次に、テスト セットではなくトレーニング セットのクラス ラベルを作成します。精度の計算方法を教えてください。テスト セットにはラベルがないため、ラベルを見ることはできません。最後に、テスト セットにクラス ラベルがない場合に Weka が文句を言わないようにしたいだけです。
私は教師あり学習の使用に傾倒していましたが、それを否定する可能性がありました。
machine-learning - weka の目に見えない公称値
特徴としていくつかの公称値を持つデータセットがあります。私が持っているトレーニング セットには、テスト セットにはない公称特徴の値のセットがあります。たとえば、トレーニング セットの私の特徴は
@attribute h4 {br,pl,com,ro,th,np}
テストセットの同じ機能には
@attribute h4 {br,pl,abc,th,def,ghi,lmno}
このため、weka は、トレーニング セットで構築したモデルをテスト セットで再評価することを許可していないと考えています。これを回避する方法はありますか?何か不足していますか?
編集: RandomForest 分類子を使用しています。
ありがとう
r - キャレット パッケージと R を使用して学習曲線をプロットする
モデル調整のためのバイアス/分散間の最適なトレードオフを研究したいと思います。R にキャレットを使用しています。これにより、モデルのハイパーパラメーター (mtry、ラムダなど) に対してパフォーマンス メトリック (AUC、精度など) をプロットし、最大値を自動的に選択できます。これは通常、適切なモデルを返しますが、さらに掘り下げて別のバイアス/分散のトレードオフを選択したい場合は、パフォーマンス曲線ではなく学習曲線が必要です。
簡単にするために、私のモデルがランダム フォレストであるとしましょう。これには 1 つのハイパーパラメーター「mtry」しかありません。
トレーニング セットとテスト セットの両方の学習曲線をプロットしたいと思います。このようなもの:
(赤い曲線はテスト セットです)
y 軸にはエラー メトリック (誤分類された例の数など) を置きます。x 軸 'mtry' またはトレーニング セットのサイズ。
質問:
サイズの異なるトレーニング セット フォールドに基づいてモデルを反復的にトレーニングするキャレット機能はありますか? 手作業でコーディングする必要がある場合、どのようにすればよいですか?
ハイパーパラメータを x 軸に配置したい場合は、最終モデル (CV の後に最大のパフォーマンスを持つモデル) だけでなく、caret::train によってトレーニングされたすべてのモデルが必要です。これらの「廃棄された」モデルは、トレーニング後も利用できますか?