問題タブ [data-science]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
1659 参照

machine-learning - PCA がロジスティック回帰のパフォーマンスを低下させたのはなぜですか?

50000 X 370 次元のデータを使用して二項分類問題でロジスティック回帰を実行しました。約 90% の精度が得られました。しかし、データに対して PCA + ロジスティックを実行すると、精度が 10% に低下しました。この結果を見て非常にショックを受けました。 . 誰が何が間違っていたのか説明できますか?

0 投票する
1 に答える
1602 参照

scala - Spark: ライブラリ メソッドをオーバーライドする

spark.ml.classification.LogisticRegressionSpark 全体を再構築せずに、scala コードにいくつかの変更を加えたいと考えています。spark-submit または pySpark の実行に jar ファイルを追加できるためです。変更されたコピーをコンパイルしてLogisticRegression.javaSpark のデフォルト メソッドをオーバーライドすること、または少なくとも新しいメソッドを作成することは可能ですか? ありがとう。

0 投票する
0 に答える
394 参照

r - dyplyr で関数 tbl() を使用してテーブル参照を作成する

関数 を使用してテーブル参照を作成しようとしているときに、データベースへの接続が正常に確立されましたtbl()。私が使用したコードは次のとおりです。

接続が正常に確立されたことを意味します。

ただし、次のコードを実行してテーブル参照を作成すると、別のエラーが発生します。

エラーは次のとおりです。

)

何が原因で、どうすれば修正できますか?

0 投票する
1 に答える
674 参照

python - scikit-learn: ベクター マシンをサポートします。精度および/または精度?

使用するコードが精度または精度、またはその両方を計算するかどうかを把握しようとしています。私は(別の言語で)統計のバックグラウンドを少ししか持っていないので、そのトピックを扱っているウィキペディアの記事]( https://en.wikipedia.org/wiki/Accuracy_and_precision )がよくわかりません。

具体的には、次の Python コードを使用します。

from sklearn import svm, cross_validation clf = svm.SVC(kernel=kernel, C=C) scores = cross_validation.cross_val_score(clf, FeatureMatrix, np.squeeze(LabelMatrix), cv=d_inds)

scikit-learn関数のドキュメントは、次の場所にあります。

0 投票する
1 に答える
40 参照

machine-learning - 使用状況のクラスタリングのためのデータの準備

データセット: 個々の顧客が毎日製品を使用する分数が与えられ、一般的な使用パターンを見つけるためにこのデータをクラスター化しようとしています。

私の質問: たとえば、1 年間使用レベルの高いパワー ユーザーが、データを終了する前にデバイスを 1 か月しか使用できなかった別のパワー ユーザーと同じように見えるように、データをフォーマットするにはどうすればよいですか?コレクション?

ここまでで、各顧客を配列に変換しました。各セルは、その日に使用された分数です。この配列は、ユーザーが最初に製品を使用したときに始まり、ユーザーが最初に使用した 1 年後に終了します。セル内のすべてのエントリは、クラスタリング モデルの double 値 (使用される 200.0 分など) である必要があります。データ収集の最終日以降のすべてのセル/日を -1.0 または NULL に設定することを検討しました。これらのいずれかが有効なアプローチですか? そうでない場合、あなたは何を提案しますか?

0 投票する
0 に答える
154 参照

git - jupyter ノートブック共有プラットフォームを構築するための最良のオプションは何ですか

エンジニアがスクリプトと jupyter ノートブックを作成して共有できる「オープン サイエンス プラットフォーム」を構築する必要があります。(およびバージョニング) 1 つの良い例は、kaggle の Web サイトです。データがあり、人々はこれをフォークしてスクリプトを作成します。人々は、ウェブサイトから jupyter ノートブックを共有、投票、および実行できます。

明らかに、私は時間のニーズに合うオープンソース プラットフォームを見つけられませんでした。

それでは、独自のプラットフォームを構築するためのアドバイスをお願いします。いくつかの調査から、3 つの解決策に気付きました。- wordpress などのソリューションまたはその他のソリューションを使用します。その中に「共同」部分を構築し、バージョン管理を維持するために Webhook と gogs で遊んでみてください。 - 私が発見した最後のものは、「オープン サイエンス フレームワーク」プロジェクトで作成します。

回答ありがとうございます。