問題タブ [data-science]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - ここで最も効率的な方法で連続カウントを取得するにはどうすればよいでしょうか?
私は Python データ サイエンスの初心者です。クリックストリーム データに取り組んでおり、特定のセッションでのアイテムの連続クリック数を数えようとしています。「ブロック」列に累積合計を取得しています。その後、ブロックごとに集計して、各ブロックのカウントを取得します。最後に、アイテムが最初に m 回連続して来て、他のアイテムの後に n 回連続して来るケース (ここでは Sid=6) があるかもしれないので、Session と Item でグループ化し、ブロック数を集計したいと思います。したがって、連続カウントは「m + n」になるはずです。
これがデータセットです-
これが私のコードです-
machine-learning - ScikitLearn パイプライン内の FeatureUnion から機能名を抽出する
SKlearn のパイプライン モデルを使用して、ランダム フォレスト分類器に送信される結合された機能を抽出および構築していますが、一部の機能エクストラクタは後で削除または追加できます。次の構造を検討してください。
を調べて、ランダム フォレストの予測を改善したいと思います。
RandomForstRegressor のプロパティ
次を使用してリストを取得できました。
そして今、feature_importances_ インデックスの列番号をパイプラインの機能名/ステップに動的にリンクしたいと思います。
フィーチャー ユニオン内でフィーチャー名を保存/取得するための推奨される方法はありますか? この問題にどのように対処しますか?
python - パンダのインデックス作成エラー
ここでインデックス作成の間違いを見つけることができません。これはばかげた間違いに違いないと確信しています。「ブロック」サイズが 1 の行の「td」値を 0 に設定したいです。最初にそのような行を見つけてから、それらのインデックスを使用して列「td」の値を 0 に設定します。サンプルデータセット。ここで、ブロック番号 5、7、8 を除いて、他のすべてのブロック値は「td」列で 0 に設定する必要があります。
これが私のコードです。予期しない出力が得られます。
期待される出力 -
python - クリックストリームでセッション期間を見つける for ループを最適化するにはどうすればよいですか?
私は Python データ サイエンスの初心者で、クリックストリーム分析を行っています。ファイル サイズが大きすぎます。約 3,300 万行です。セッション期間を見つけるために作成したこのスクリプトを実行しています。操作の進行状況を確認するために i を出力しています。しかし、12 時間近くが経過し、400 000 までしか到達していません。900 万近くのセッションがあります。この速度だと270時間(11日)近くかかります。時間を短縮するには、これを最適化する必要があります。
データセットは次のとおりです。
これが私のコードです。for ループが動作を遅くしていると思います。セッション期間については、最初にすべてのセッションで最大タイムスタンプと最小タイムスタンプを見つけています。次に、for ループでそれらを seconds.microseconds に変換し、Tstamp 列で同時更新を使用して最終的な減算を行います。
このコードを最適化するために何ができるか。
編集 1: マイクロ秒の部分を削除しました。
machine-learning - 機械学習と明示的プログラミングの違い
私はデータサイエンス分野の初心者です。だから私は彼の基本を段階的に理解しようとしています。彼の最も重要な分野の 1 つに、機械学習があります。
私はこの定義を見つけました:
「機械学習は、機械が明示的にプログラムされなくても学習できるようにするための研究分野です。」
私にとってまだ曖昧なのは、プログラミングせずに機械に学習能力を与えるにはどうすればよいかということです!!
誰でも私にこれを明確にしてもらえますか?
r - R-Studio の外観の設定
コードを読みやすくしたい。たとえば、ヒスト関数の引数を赤 (プロットと赤のブレーク) に色付けし、その値を青 (FALSE と青の 20) に色付けしたい -- hist(plot = FALSE, allzips$centile, breaks = 20)。R-studioで設定するパラメータを知っている人はいますか? 私は外見でたくさん遊んでいますが、決して修正されません.
ありがとう、
カルビ
python - 分類子を使用して上位 5 つのトピックの精度を取得するにはどうすればよいですか?
22465 のテスト ドキュメントがあり、88 の異なるトピックに分類しています。上位 5 つの予測トピックを取得するために predict_proba を使用しています。これら 5 つのトピックの精度を出力するにはどうすればよいですか?
正確さのために、これは私がやっていることです:
精度のために
同じ方法で上位 5 つのトピックの精度を見つけるにはどうすればよいですか? Scikit メトリクスは使用を拒否します
machine-learning - Web ログイン タイムスタンプの時系列予測
時系列予測モデルを構築する必要があり、ユーザーがサイトにログインしたときの一連のタイムスタンプしかない場合、それをどのようにモデル化しますか?
これは、データの最初の数行です。パンダシリーズとして持っています。
いくつかの質問があります:
1)。タイムスタンプしかなく、Y 値やその他の機能がない場合に、時間単位でユーザーの行動をグラフ化する方法
2)。この時系列に適合するモデルを構築し、次の 2 週間を予測します。
他の機能や変数は指定されていません。毎日3か月ほどログインするだけです。