問題タブ [scikit-learn]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - Scikits Learn: 線形カーネル SVM の機能の重み
テキスト分類の問題(感情分析)を扱っています。scikit-learn に「重み」(重要性の尺度として) を機能に追加するオプションがあるかどうかを知りたいです。ドキュメントを確認したところ、以下に定義されているSVC の属性「coefs」が見つかりました。
ただし、この属性は読み取り専用のようです。
python - Tf-Idf データを永続化する
TF-IDF マトリックスを保存したいので、常に再計算する必要はありません。scikit-learn を使用していTfIdfVectorizer
ます。それをピクルするか、データベースに保存する方が効率的ですか?
いくつかのコンテキスト: ドキュメントの推奨事項を提供するために k-means クラスタリングを使用しています。新しいドキュメントが頻繁に追加されるため、ドキュメントの TF-IDF 値を保存して、クラスターを再計算できるようにしたいと考えています。
python - p-ノルム以外に、KNN の scikit-learn で他のペアワイズ距離メトリックを使用する
scikit-learn の KNN パッケージの場合sklearn.metrics.pairwise
、p ノルムまたはミンコフスキー距離ではないペアワイズ距離メトリック (パッケージから) を指定できますか? たとえば、RBF カーネルを使用できますか? それとも余弦距離ですか?
python - scikit-learn 分類子の最も有益な機能を取得するには?
liblinear や nltk などの機械学習パッケージの分類子は、show_most_informative_features()
機能のデバッグに非常に役立つmethod を提供します。
私の質問は、scikit-learn の分類器に同様のものが実装されているかどうかです。ドキュメントを検索しましたが、そのようなものは見つかりませんでした。
そのような関数がまだない場合、誰かがそれらの値に到達する方法を知っていますか?
python - sklearnでのデータの永続化
scikit-learnを使用してテキストドキュメントをクラスター化しています。私はそれを行うのを助けるためにクラスCountVectorizer、TfidfTransformerおよびMiniBatchKMeansを使用しています。新しいテキストドキュメントは常にシステムに追加されます。つまり、テキストを変換してクラスターを予測するには、上記のクラスを使用する必要があります。私の質問は、データをディスクにどのように保存する必要があるかということです。ベクトル化、トランスフォーマー、およびkmeansオブジェクトを単純にピクルス化する必要がありますか?データを保存するだけでいいですか?もしそうなら、どうすればそれをベクトライザー、トランスフォーマー、kmeansオブジェクトに戻すことができますか?
どんな助けでも大歓迎です
r - glmnet/scikit 学習係数行列サイズ
scikit Learnでは、ロジスティック回帰モデルの係数coef_
は次元[n_classes-1、n_features]の配列です。
glmnet
係数はfit$beta
同様の配列ではありません。
例えば:
寸法xMatrix
- 63231 X 1223 (トレーニング サンプル数 X 特徴数)
yMatrix
- 63231 X 1の次元(トレーニング サンプルの数 X 各サンプルの期待される出力値)。45の異なるクラスがあります。したがって、出力はそれらのいずれかです。
出力係数の次元 (私が理解していることから) = 1223 X 45 (機能の数 X クラスの数)
私はscikit Learnで正しく理解していますが、結果はglmnet
異なります
これが私のglmnet
コードです:
1223 X 45 ではなく 1223 X 86 になるのはなぜですか?
scikit-learn - Scikit-Learn ロジスティック回帰メモリ エラー
sklearn 0.11 の LogisticRegression オブジェクトを使用して、約 80,000 の特徴を持つ 200,000 の観測にモデルを適合させようとしています。目標は、短いテキストの説明を 800 クラスのうちの 1 つに分類することです。
分類子 pythonw.exe に適合させようとすると、次のようになります。
アプリケーション エラー「... の命令は 0x00000000 のメモリを参照しました」。メモリに書き込めませんでした。」
特徴は非常にまばらで、観測ごとに約 10 個であり、バイナリ (1 または 0) であるため、エンベロープ計算の裏で、4 GB の RAM でメモリ要件を処理できるはずですが、そうではないようです。場合があります。モデルは、使用する観測数や機能が少ない場合にのみ適合します。
どちらかといえば、もっと観察や機能を使いたいです。私の素朴な理解は、舞台裏で物事を実行しているliblinearライブラリがそれをサポートできるということです。さらにいくつかの観測を絞り込む方法についてのアイデアはありますか?
私のコードは次のようになります。
アナライザーに渡す features() 関数は、各観測で検出された機能を示す文字列のリストを返すだけです。
私は Python 2.7、sklearn 0.11、4 GB の RAM を搭載した Windows XP を使用しています。
python - Scikit-Learn の SVM クラスの nu パラメータの意味は何ですか?
http://scikit-learn.org/stable/auto_examples/svm/plot_oneclass.html#example-svm-plot-oneclass-pyに示されている例に従っています。ここでは、異常検出に 1 クラス SVM が使用されています。さて、これはscikit-learn特有の表記かもしれませんが、OneClassSVMコンストラクターに与えられたパラメーターnuの使い方の説明が見つかりませんでした。
http://scikit-learn.org/stable/modules/svm.html#nusvcでは、パラメーター nu はパラメーター C (私がよく知っている正則化パラメーター) の再パラメーター化であると述べられていますが、そうではありませんその再パラメータ化を実行する方法については述べていません。
公式と直感の両方が高く評価されます。
ありがとう!
python - scikit-learnK-meansの例の実行中にエラーが発生しました
scikit-learn公式サイトからscikit-learnK-meansの例を実行しようとしています: http ://scikit-learn.org/dev/auto_examples/cluster/plot_cluster_iris.html#example-cluster-plot-cluster-iris -py
すべてのライブラリ(scipy、numpy、pylabなど)をインストールしました。ただし、コードを実行すると、次のようなエラーメッセージが表示されます。
それはscikit-learnバージョンと関係がありますか?ver。を使用しています。MAC OSXLionでは0.11。
python - scikit-learn KMeansからクラスターセンターのテキストを取得するにはどうすればよいですか?
フィットするために使用する文字列のリストがありますsklearn.cluster.KMeans
:
ここで、クラスターの中心を元の文字列表現で取得したいと思います。私は知ってkm.cluster_centers_
いますが、の関連するインデックスを取得する方法を理解できませんでしたdocs
。