問題タブ [data-science]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - PCA がロジスティック回帰のパフォーマンスを低下させたのはなぜですか?
50000 X 370 次元のデータを使用して二項分類問題でロジスティック回帰を実行しました。約 90% の精度が得られました。しかし、データに対して PCA + ロジスティックを実行すると、精度が 10% に低下しました。この結果を見て非常にショックを受けました。 . 誰が何が間違っていたのか説明できますか?
scala - Spark: ライブラリ メソッドをオーバーライドする
spark.ml.classification.LogisticRegression
Spark 全体を再構築せずに、scala コードにいくつかの変更を加えたいと考えています。spark-submit または pySpark の実行に jar ファイルを追加できるためです。変更されたコピーをコンパイルしてLogisticRegression.java
Spark のデフォルト メソッドをオーバーライドすること、または少なくとも新しいメソッドを作成することは可能ですか? ありがとう。
r - dyplyr で関数 tbl() を使用してテーブル参照を作成する
関数 を使用してテーブル参照を作成しようとしているときに、データベースへの接続が正常に確立されましたtbl()
。私が使用したコードは次のとおりです。
接続が正常に確立されたことを意味します。
ただし、次のコードを実行してテーブル参照を作成すると、別のエラーが発生します。
エラーは次のとおりです。
)
何が原因で、どうすれば修正できますか?
python - scikit-learn: ベクター マシンをサポートします。精度および/または精度?
使用するコードが精度または精度、またはその両方を計算するかどうかを把握しようとしています。私は(別の言語で)統計のバックグラウンドを少ししか持っていないので、そのトピックを扱っているウィキペディアの記事]( https://en.wikipedia.org/wiki/Accuracy_and_precision )がよくわかりません。
具体的には、次の Python コードを使用します。
from sklearn import svm, cross_validation
clf = svm.SVC(kernel=kernel, C=C)
scores = cross_validation.cross_val_score(clf, FeatureMatrix, np.squeeze(LabelMatrix), cv=d_inds)
scikit-learn関数のドキュメントは、次の場所にあります。
machine-learning - 使用状況のクラスタリングのためのデータの準備
データセット: 個々の顧客が毎日製品を使用する分数が与えられ、一般的な使用パターンを見つけるためにこのデータをクラスター化しようとしています。
私の質問: たとえば、1 年間使用レベルの高いパワー ユーザーが、データを終了する前にデバイスを 1 か月しか使用できなかった別のパワー ユーザーと同じように見えるように、データをフォーマットするにはどうすればよいですか?コレクション?
ここまでで、各顧客を配列に変換しました。各セルは、その日に使用された分数です。この配列は、ユーザーが最初に製品を使用したときに始まり、ユーザーが最初に使用した 1 年後に終了します。セル内のすべてのエントリは、クラスタリング モデルの double 値 (使用される 200.0 分など) である必要があります。データ収集の最終日以降のすべてのセル/日を -1.0 または NULL に設定することを検討しました。これらのいずれかが有効なアプローチですか? そうでない場合、あなたは何を提案しますか?
git - jupyter ノートブック共有プラットフォームを構築するための最良のオプションは何ですか
エンジニアがスクリプトと jupyter ノートブックを作成して共有できる「オープン サイエンス プラットフォーム」を構築する必要があります。(およびバージョニング) 1 つの良い例は、kaggle の Web サイトです。データがあり、人々はこれをフォークしてスクリプトを作成します。人々は、ウェブサイトから jupyter ノートブックを共有、投票、および実行できます。
明らかに、私は時間のニーズに合うオープンソース プラットフォームを見つけられませんでした。
それでは、独自のプラットフォームを構築するためのアドバイスをお願いします。いくつかの調査から、3 つの解決策に気付きました。- wordpress などのソリューションまたはその他のソリューションを使用します。その中に「共同」部分を構築し、バージョン管理を維持するために Webhook と gogs で遊んでみてください。 - 私が発見した最後のものは、「オープン サイエンス フレームワーク」プロジェクトで作成します。
回答ありがとうございます。