“scikit-learn”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

2384 参照

machine-learning - Scikits Learn: 線形カーネル SVM の機能の重み

テキスト分類の問題（感情分析）を扱っています。scikit-learn に「重み」(重要性の尺度として) を機能に追加するオプションがあるかどうかを知りたいです。ドキュメントを確認したところ、以下に定義されているSVC の属性「coefs」が見つかりました。

ただし、この属性は読み取り専用のようです。

2012-06-17T23:18:42.843

0 投票する

1 に答える

2008 参照

python - Tf-Idf データを永続化する

TF-IDF マトリックスを保存したいので、常に再計算する必要はありません。scikit-learn を使用していTfIdfVectorizerます。それをピクルするか、データベースに保存する方が効率的ですか?

いくつかのコンテキスト: ドキュメントの推奨事項を提供するために k-means クラスタリングを使用しています。新しいドキュメントが頻繁に追加されるため、ドキュメントの TF-IDF 値を保存して、クラスターを再計算できるようにしたいと考えています。

python machine-learning scikit-learn pickle

2012-06-19T13:50:20.950

0 投票する

1 に答える

1858 参照

python - p-ノルム以外に、KNN の scikit-learn で他のペアワイズ距離メトリックを使用する

scikit-learn の KNN パッケージの場合sklearn.metrics.pairwise、p ノルムまたはミンコフスキー距離ではないペアワイズ距離メトリック (パッケージから) を指定できますか? たとえば、RBF カーネルを使用できますか? それとも余弦距離ですか？

python machine-learning scikit-learn distance knn

2012-06-19T22:30:32.273

0 投票する

9 に答える

57487 参照

python - scikit-learn 分類子の最も有益な機能を取得するには?

liblinear や nltk などの機械学習パッケージの分類子は、show_most_informative_features()機能のデバッグに非常に役立つmethod を提供します。

私の質問は、scikit-learn の分類器に同様のものが実装されているかどうかです。ドキュメントを検索しましたが、そのようなものは見つかりませんでした。

そのような関数がまだない場合、誰かがそれらの値に到達する方法を知っていますか?

python machine-learning classification scikit-learn

2012-06-20T09:36:19.457

0 投票する

2 に答える

2696 参照

scikit-learnを使用してテキストドキュメントをクラスター化しています。私はそれを行うのを助けるためにクラスCountVectorizer、TfidfTransformerおよびMiniBatchKMeansを使用しています。新しいテキストドキュメントは常にシステムに追加されます。つまり、テキストを変換してクラスターを予測するには、上記のクラスを使用する必要があります。私の質問は、データをディスクにどのように保存する必要があるかということです。ベクトル化、トランスフォーマー、およびkmeansオブジェクトを単純にピクルス化する必要がありますか？データを保存するだけでいいですか？もしそうなら、どうすればそれをベクトライザー、トランスフォーマー、kmeansオブジェクトに戻すことができますか？

どんな助けでも大歓迎です

python machine-learning data-mining scikit-learn

2012-06-21T15:41:00.807

0 投票する

0 に答える

365 参照

r - glmnet/scikit 学習係数行列サイズ

scikit Learnでは、ロジスティック回帰モデルの係数coef_は次元[n_classes-1、n_features]の配列です。

glmnet係数はfit$beta同様の配列ではありません。

例えば：

寸法xMatrix- 63231 X 1223 (トレーニングサンプル数 X 特徴数)

yMatrix- 63231 X 1の次元(トレーニングサンプルの数 X 各サンプルの期待される出力値)。45の異なるクラスがあります。したがって、出力はそれらのいずれかです。

出力係数の次元 (私が理解していることから) = 1223 X 45 (機能の数 X クラスの数)

私はscikit Learnで正しく理解していますが、結果はglmnet異なります

これが私のglmnetコードです：

1223 X 45 ではなく 1223 X 86 になるのはなぜですか?

r scikit-learn glmnet

2012-06-25T15:41:10.973

0 投票する

1 に答える

7046 参照

scikit-learn - Scikit-Learn ロジスティック回帰メモリエラー

sklearn 0.11 の LogisticRegression オブジェクトを使用して、約 80,000 の特徴を持つ 200,000 の観測にモデルを適合させようとしています。目標は、短いテキストの説明を 800 クラスのうちの 1 つに分類することです。

分類子 pythonw.exe に適合させようとすると、次のようになります。

アプリケーションエラー「... の命令は 0x00000000 のメモリを参照しました」。メモリに書き込めませんでした。」

特徴は非常にまばらで、観測ごとに約 10 個であり、バイナリ (1 または 0) であるため、エンベロープ計算の裏で、4 GB の RAM でメモリ要件を処理できるはずですが、そうではないようです。場合があります。モデルは、使用する観測数や機能が少ない場合にのみ適合します。

どちらかといえば、もっと観察や機能を使いたいです。私の素朴な理解は、舞台裏で物事を実行しているliblinearライブラリがそれをサポートできるということです。さらにいくつかの観測を絞り込む方法についてのアイデアはありますか?

私のコードは次のようになります。

アナライザーに渡す features() 関数は、各観測で検出された機能を示す文字列のリストを返すだけです。

私は Python 2.7、sklearn 0.11、4 GB の RAM を搭載した Windows XP を使用しています。

scikit-learn

2012-06-25T18:47:46.747

0 投票する

2 に答える

22526 参照

python - Scikit-Learn の SVM クラスの nu パラメータの意味は何ですか?

http://scikit-learn.org/stable/auto_examples/svm/plot_oneclass.html#example-svm-plot-oneclass-pyに示されている例に従っています。ここでは、異常検出に 1 クラス SVM が使用されています。さて、これはscikit-learn特有の表記かもしれませんが、OneClassSVMコンストラクターに与えられたパラメーターnuの使い方の説明が見つかりませんでした。

http://scikit-learn.org/stable/modules/svm.html#nusvcでは、パラメーター nu はパラメーター C (私がよく知っている正則化パラメーター) の再パラメーター化であると述べられていますが、そうではありませんその再パラメータ化を実行する方法については述べていません。

公式と直感の両方が高く評価されます。

ありがとう！

python machine-learning scikit-learn

2012-06-27T16:30:55.160

0 投票する

2 に答える

2161 参照

python - scikit-learnK-meansの例の実行中にエラーが発生しました

scikit-learn公式サイトからscikit-learnK-meansの例を実行しようとしています： http ：//scikit-learn.org/dev/auto_examples/cluster/plot_cluster_iris.html#example-cluster-plot-cluster-iris -py

すべてのライブラリ（scipy、numpy、pylabなど）をインストールしました。ただし、コードを実行すると、次のようなエラーメッセージが表示されます。

それはscikit-learnバージョンと関係がありますか？ver。を使用しています。MAC OSXLionでは0.11。

python scikit-learn

2012-06-27T17:51:53.540

0 投票する

1 に答える

5885 参照

python - scikit-learn KMeansからクラスターセンターのテキストを取得するにはどうすればよいですか？

フィットするために使用する文字列のリストがありますsklearn.cluster.KMeans：

ここで、クラスターの中心を元の文字列表現で取得したいと思います。私は知ってkm.cluster_centers_いますが、の関連するインデックスを取得する方法を理解できませんでしたdocs。

python machine-learning k-means scikit-learn

2012-07-05T13:18:16.213

問題タブ [scikit-learn]

machine-learning - Scikits Learn: 線形カーネル SVM の機能の重み

python - Tf-Idf データを永続化する

python - p-ノルム以外に、KNN の scikit-learn で他のペアワイズ距離メトリックを使用する

python - scikit-learn 分類子の最も有益な機能を取得するには?

python - sklearnでのデータの永続化

r - glmnet/scikit 学習係数行列サイズ

scikit-learn - Scikit-Learn ロジスティック回帰メモリエラー

python - Scikit-Learn の SVM クラスの nu パラメータの意味は何ですか?

python - scikit-learnK-meansの例の実行中にエラーが発生しました

python - scikit-learn KMeansからクラスターセンターのテキストを取得するにはどうすればよいですか？

問題タブ [scikit-learn]

Reference