問題タブ [data-science]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

7370 問題

0 投票する

2 に答える

1659 参照

machine-learning - PCA がロジスティック回帰のパフォーマンスを低下させたのはなぜですか?

50000 X 370 次元のデータを使用して二項分類問題でロジスティック回帰を実行しました。約 90% の精度が得られました。しかし、データに対して PCA + ロジスティックを実行すると、精度が 10% に低下しました。この結果を見て非常にショックを受けました。 . 誰が何が間違っていたのか説明できますか?

2016-04-16T19:34:50.863

0 投票する

1 に答える

1602 参照

scala - Spark: ライブラリメソッドをオーバーライドする

spark.ml.classification.LogisticRegressionSpark 全体を再構築せずに、scala コードにいくつかの変更を加えたいと考えています。spark-submit または pySpark の実行に jar ファイルを追加できるためです。変更されたコピーをコンパイルしてLogisticRegression.javaSpark のデフォルトメソッドをオーバーライドすること、または少なくとも新しいメソッドを作成することは可能ですか? ありがとう。

scala apache-spark machine-learning pyspark data-science

2016-04-17T23:24:55.410

0 投票する

0 に答える

394 参照

r - dyplyr で関数 tbl() を使用してテーブル参照を作成する

関数を使用してテーブル参照を作成しようとしているときに、データベースへの接続が正常に確立されましたtbl()。私が使用したコードは次のとおりです。

接続が正常に確立されたことを意味します。

ただし、次のコードを実行してテーブル参照を作成すると、別のエラーが発生します。

エラーは次のとおりです。

)

何が原因で、どうすれば修正できますか?

r database postgresql dplyr data-science

2016-04-20T07:37:22.680

0 投票する

1 に答える

674 参照

python - scikit-learn: ベクターマシンをサポートします。精度および/または精度?

使用するコードが精度または精度、またはその両方を計算するかどうかを把握しようとしています。私は（別の言語で）統計のバックグラウンドを少ししか持っていないので、そのトピックを扱っているウィキペディアの記事]（ https://en.wikipedia.org/wiki/Accuracy_and_precision ）がよくわかりません。

具体的には、次の Python コードを使用します。

from sklearn import svm, cross_validation clf = svm.SVC(kernel=kernel, C=C) scores = cross_validation.cross_val_score(clf, FeatureMatrix, np.squeeze(LabelMatrix), cv=d_inds)

scikit-learn関数のドキュメントは、次の場所にあります。

python statistics scikit-learn svm data-science

2016-04-25T17:03:37.053

0 投票する

1 に答える

40 参照

machine-learning - 使用状況のクラスタリングのためのデータの準備

データセット: 個々の顧客が毎日製品を使用する分数が与えられ、一般的な使用パターンを見つけるためにこのデータをクラスター化しようとしています。

私の質問: たとえば、1 年間使用レベルの高いパワーユーザーが、データを終了する前にデバイスを 1 か月しか使用できなかった別のパワーユーザーと同じように見えるように、データをフォーマットするにはどうすればよいですか?コレクション？

ここまでで、各顧客を配列に変換しました。各セルは、その日に使用された分数です。この配列は、ユーザーが最初に製品を使用したときに始まり、ユーザーが最初に使用した 1 年後に終了します。セル内のすべてのエントリは、クラスタリングモデルの double 値 (使用される 200.0 分など) である必要があります。データ収集の最終日以降のすべてのセル/日を -1.0 または NULL に設定することを検討しました。これらのいずれかが有効なアプローチですか? そうでない場合、あなたは何を提案しますか？

machine-learning cluster-analysis data-science data-cleaning bigdata

2016-04-27T17:19:22.123

0 投票する

0 に答える

154 参照

git - jupyter ノートブック共有プラットフォームを構築するための最良のオプションは何ですか

エンジニアがスクリプトと jupyter ノートブックを作成して共有できる「オープンサイエンスプラットフォーム」を構築する必要があります。(およびバージョニング) 1 つの良い例は、kaggle の Web サイトです。データがあり、人々はこれをフォークしてスクリプトを作成します。人々は、ウェブサイトから jupyter ノートブックを共有、投票、および実行できます。

明らかに、私は時間のニーズに合うオープンソースプラットフォームを見つけられませんでした。

それでは、独自のプラットフォームを構築するためのアドバイスをお願いします。いくつかの調査から、3 つの解決策に気付きました。- wordpress などのソリューションまたはその他のソリューションを使用します。その中に「共同」部分を構築し、バージョン管理を維持するために Webhook と gogs で遊んでみてください。 - 私が発見した最後のものは、「オープンサイエンスフレームワーク」プロジェクトで作成します。

回答ありがとうございます。

git jupyter-notebook data-science gogs

2016-04-29T12:18:39.590

1 2 3 4 5 6 7 8 9 10

問題タブ [data-science]

machine-learning - PCA がロジスティック回帰のパフォーマンスを低下させたのはなぜですか?

scala - Spark: ライブラリ メソッドをオーバーライドする

r - dyplyr で関数 tbl() を使用してテーブル参照を作成する

python - scikit-learn: ベクター マシンをサポートします。精度および/または精度?

machine-learning - 使用状況のクラスタリングのためのデータの準備

git - jupyter ノートブック共有プラットフォームを構築するための最良のオプションは何ですか

Reference

scala - Spark: ライブラリメソッドをオーバーライドする

python - scikit-learn: ベクターマシンをサポートします。精度および/または精度?