問題タブ [unsupervised-learning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
windows - 新しい Python インストール; スクリプトの実行が非常に遅い
現在の Python バージョン 2.7.10 - python.org と Anaconda ディストリビューションから直接ダウンロードしてみました。
以前の Python のバージョンは 2.7.x でした (覚えていません) - Enthought Canopy ディストリビューションだったことは知っています。
Windows を 7 から 10pro に「アップグレード」しました。新たなスタートを切るために、コンピューターにすべてを再インストールしました。Python 2.7.10 の最新バージョンをインストールしました。昨日 Windows 7 OS で実行していたスクリプトを現在実行していますが、実行速度が非常に遅く、その理由がわかりません。これは、次のチュートリアルのコードに基づいたスクリプトです。
http://pythonprogramming.net/sentiment-analysis-module-nltk-tutorial/
ロードされるデータが多く、以前はそれほど高速ではありませんでしたが、現在は非常に時間がかかり、フリーズしているように見えます。何かご意見は?Cコンパイラなど、以前のPython環境にインストールしたパッケージと関係があると思いました。長時間ハングアップし、スクリプトをゆっくりと移動するため、出力は何もありません。壊れていませんし、スタックしているループもありません。十分に待つと、正しい出力が表示され始めます。「Ctrl-C」を押すと、これが得られます。
参考にはならないと思いますが、念のため。
machine-learning - scikit を使用した階層的凝集クラスタリングでのクラスター数の選択
データセット内のクラスター数の決定に関するウィキペディアの記事は、階層的クラスタリングを使用する場合、このような問題について心配する必要がないことを示しています。ただし、scikit-learn の 凝集クラスタリングを使用しようとすると、「n_clusters」パラメーターとしてクラスターの数を入力する必要があることがわかりました。これがないと、ハードコードされたデフォルトの 2 つのクラスターが得られます。この場合、データセットに適切な数のクラスターを選択するにはどうすればよいですか? ウィキの記事は間違っていますか?
machine-learning - Xmeans で WEKA を使用してクラスターの最小数と最大数を選択する
WEKA インターフェイスでは、X 平均法クラスタリング アルゴリズムを実行する前に、クラスターの最小数と最大数を指定する必要があることがわかりました。これらの数値を決定する良い方法は何ですか? X-means は、クラスターの数を選択する負担を取り除くことになっているのではないでしょうか?
deep-learning - 教師なしモデルが nn.diag を実装する必要があるのはなぜですか?
私は深層学習を学ぼうとしています。
トーチのチュートリアルでは、
https://github.com/torch/tutorials/blob/master/2_supervised/2_model.lua
https://github.com/torch/tutorials/blob/master/3_unsupervised/2_models.lua
教師ありモデル
教師なしモデル
教師なしモデルが nn.Diag を実装する必要があるのはなぜですか?
前もって感謝します。
r - R kmeans 関数の結果をどのように解釈できますか?
81432 枚の画像の説明を含む大量のデータがあります。これらの記述は、127 の位置を持つ (各画像の) ベクトルを生成する画像記述子によって生成されます。したがって、81432 行と 127 列の行列があります。
R からkmeansを実行していますが、結果を解釈する方法がわかりません。いくつかのクラスターを設定しました。アルゴリズムが実行され、それで何をしますか? Elbow ルールをプロットしたいのですが、やり方がわかりません。
scikit-learn - AgglomerativeClustering scikit 学習接続
AgglomerativeClusteringを呼び出した後、データが 2 つのクラスター (0-3) と (4-7) に分割されることを期待していました。つまり、labels_=[0,0,0,0,1,1,1,1] ですが、labels_ list [0, 0, 0, 1, 0, 0, 0, 1] です
私のコードは次のとおりです s=AgglomerativeClustering(affinity='precomputed',n_clusters=2,linkage='complete)
s.fit(x)
コードにエラーが含まれていませんか? クラスタリングが期待どおりにならない理由
python - K-means を使用して Python の機能を学習する
質問
Python で K-Means アルゴリズムを実装しました。まず、入力データに PCA とホワイトニングを適用します。次に、k-means を使用して、データから k 個の重心を正常に減算します。
これらのセントロイドを使用して、学習した「機能」を理解するにはどうすればよいですか? 重心はすでに特徴ですか (私にはこのようには見えません)、それとも再び入力データと組み合わせる必要がありますか?
いくつかの答えのために:K-meansはクラスタリングの「単なる」方法ではなく、ベクトル量子化方法です。つまり、k-means の目標は、特徴ベクトルの数を減らしてデータセットを記述することです。したがって、潜在的な結果に関しては、Sparse Filtering/Learning などの方法に大きな類似点があります。
コード例
r - R: クラスタリング - 新しい症例を予測する方法は?
150 人の患者のセットに 4000 個の (連続) 予測変数があります。まず、生存に関連する変数を特定する必要があります。したがって、コックス比例ハザード生存モデルの回帰係数の検定には、t 統計量とともに複数検定手順関数 ( http://svitsrv25.epfl.ch/R-doc/library/multtest/html/MTP.html ) を使用します。重要な予測因子を特定します。この分析では、生存率に有意に関連する 60 のパラメーターを識別します。次に、ConensusClusterPlus パッケージ ( https://www.bioconductor.org/packages/release/bioc/html/ConsensusClusterPlus.html ) を使用して、教師なし k-means クラスタリングを実行します。) CDF 曲線と進行グラフに基づいて、3 つのクラスターを最適解として識別します。その後、Kaplan-Meier 生存分析を実行すると、3 つのクラスターのそれぞれが異なる生存パターン (低/中/長期生存) に関連付けられていることがわかります。
私が今持っている質問は次のとおりです: 各患者が最も可能性が高い 3 つのクラスターのどれに属するかを予測したい別の 50 人の患者のセットがあると仮定しましょう。どうすればこれを達成できますか?分類子をトレーニングする必要がありますか (たとえば、キャレット パッケージ (topepo.github.io/caret/bytag.html) を使用)。トレーニング セットには 60 の重要なパラメーターを持つ 150 人の患者が含まれており、アルゴリズムはどの患者が割り当てられたかを認識しています。 3 つのクラスターのどれ)、50 人の新しい患者で分類子を検証しますか? 次に、Kaplan-Meier 生存分析を実行して、検証セット (n=50) で予測されたクラスターが再び異なる生存パターンに関連付けられているかどうかを確認します。
ご協力いただきありがとうございます。