問題タブ [unsupervised-learning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - 時系列データの教師なし学習における最先端技術とは?
最先端の方法の概要を探しています
時系列データの時系列パターン (任意の長さ) を見つける
教師なし(ラベルなし) です。
言い換えれば、(潜在的に高次元の) データのストリーム/シーケンスが与えられた場合、データ内の構造を最もよく捉える共通のサブシーケンスをどのように見つけますか?
最近の開発や論文 (できれば HMM を超えたもの) へのポインタは大歓迎です!
この問題は、より具体的なアプリケーションドメインでよく理解されていますか?
- モーションキャプチャ
- 音声処理
- 自然言語処理
- ゲームのアクション シーケンス
- 株価予想?
- さらに、これらの方法のいくつかは、対処するのに十分一般的ですか?
- ノイズの多いデータ
- 階層構造
- 時間軸上で不規則な間隔
(既知のパターンを検出することにも、シーケンスを分類またはセグメント化することにも興味がありません。)
matlab - matlabのk-meanは、シードのクラスターメンバーシップを再計算しますか?
matlab's k-mean
シードについての詳細がわかりません。matlabのk-meanが、行列Xs seeds
のサブセットであるのクラスター割り当てを再計算する場合。data set X
または、これらのシードは最初の中心位置にのみ使用され、k-meansクラスター割り当てフェーズでは考慮されませんか?
semi-supervised clustering by seeds
スガト・バスーらがやりたいです。素朴な質問かもしれませんが、あなたの答えはこの混乱をより明確にするでしょう。
前もって感謝します。
machine-learning - データセットで教師なし学習手法を使用し、クラスターにラベルを付けるにはどうすればよいでしょうか?
まず、これは間違いなく宿題です (したがって、完全なコード サンプルはありません)。それは言った...
Matlab のニューラル ネットワーク ツールボックスを使用して、教師ありアルゴリズムの隣に教師なしアルゴリズムをテストする必要があります。データセットはUCI人工文字データベースです。問題は、私は教師ありアルゴリズムに関する優れたチュートリアルを持っていたのに、教師なしアルゴリズムに取り残されたことです。
を使用して自己組織化マップを作成する方法を知っているので、 を使用し selforgmap
てそれをトレーニングしtrain(net, trainingSet)
ます。次に何をすべきかわかりません。私が与えたデータが(うまくいけば)10個のクラスター(文字ごとに1つ)にクラスター化されていることを知っています。
次に2つの質問:
- 次に、クラスターにラベルを付けるにはどうすればよいですか (比較パターンがある場合)。
- これを行うとき、これを教師あり学習の問題に変えようとしていますか?
- 教師ありアルゴリズムと比較するために、(別の) テスト セットで混同行列を作成するにはどうすればよいですか?
ここでは、概念的または専門用語に基づいた何かが欠けていると思います。私の検索はすべて、教師あり学習手法を思いつきます。正しい方向へのポイントは大歓迎です。私の既存のコードは以下の通りです:
python - NLTKによる半教師ありナイーブベイズ
EM(期待値最大化アルゴリズム)に基づいて、PythonでNLTKのナイーブベイズの半教師ありバージョンを作成しました。ただし、EMの一部の反復では、負の対数尤度が得られます(EMの対数尤度はすべての反復で正でなければなりません)。したがって、コードにいくつかの間違いがあるはずです。コードを注意深く確認した後、なぜこれが起こっているのかわかりません。誰かが以下の私のコードの間違いを見つけることができれば本当にありがたいです:
EMアルゴリズムのメインループ
必要な度数分布を作成するために使用されるカスタム関数gen-freqdists
r - Rの主成分分析(PCA):どの機能を使用しますか?
prcomp関数とprincomp関数の主な違いを誰かが説明できますか?
どちらかを選択する必要がある特別な理由はありますか?これが関連する場合、私が見ているアプリケーションのタイプは、ゲノム(発現)データセットの品質管理分析です。
ありがとうございました!
pca - 次元削減の推奨アルゴリズム (PCA は適していません)
このアプリケーションでは、次元削減のアルゴリズムを使用して、特定の数のコンポーネントがすべてデータ内のほぼ同じ量の分散を説明するようにしたいと考えています。
したがって、説明された分散が最初の主成分から後続の各主成分に急激に減少するため、主成分分析は適していません。
どのようなアルゴリズムを使用できますか?
self-organizing-maps - 自己組織化マップのような軽量な教師なし学習方法
CPU、RAM 使用率などのシステム パラメーターを使用して異常検出システムをトレーニングする教師なし学習方法を使用する軽量システムを開発しようとしています。自己組織化マップ以上のものは考えられませんでした。ここで検討できる他の学習手法はありますか?
mahout - これにはmahoutを使用する必要がありますか?
タグ付けされ、3つの価格カテゴリ(安い、通常、高い)に分類されているアイテムをお勧めしたいと思います。Mahoutの推奨事項が達成できることは知っていますが、その使用方法がわからないのはこのためです。
Mahoutは他のユーザーの意見に基づいていますが、私がお勧めしたい新しいアイテムはすべて、まだ設定が設定されていない新しいアイテムです。
Mahoutはこれに適したツールですか?これはコンテンツベースですか?(どの象使いがまだサポートしていませんか????)または分類を使用する必要がありますか?
ありがとう!
cluster-analysis - トピックモデリングとドキュメントクラスタリングの関係は何ですか?
トピックモデリングは、ドキュメントコレクション内のトピックの分布を識別し、コレクション内のクラスターを効果的に識別します。それで、トピックモデリングはドキュメントクラスタリングを行うための技術であると言うのは正しいですか?
machine-learning - 機械学習: 教師なしバックプロパゲーション
ニューラル ネットワークによる機械学習の概念のいくつかに問題があります。それらの 1 つがバックプロパゲーションです。重み更新式では、
t
教師あり学習の場合は、クラスのラベルなどになる「ターゲット出力」です。しかし、教師なし学習の「目標出力」はどうなるでしょうか?
特に分類のクラスタリングのために、教師なし学習でBPを使用する方法の例を誰かが親切に提供できますか?
前もって感謝します。