“data-science”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

64 参照

python - ここで最も効率的な方法で連続カウントを取得するにはどうすればよいでしょうか?

私は Python データサイエンスの初心者です。クリックストリームデータに取り組んでおり、特定のセッションでのアイテムの連続クリック数を数えようとしています。「ブロック」列に累積合計を取得しています。その後、ブロックごとに集計して、各ブロックのカウントを取得します。最後に、アイテムが最初に m 回連続して来て、他のアイテムの後に n 回連続して来るケース (ここでは Sid=6) があるかもしれないので、Session と Item でグループ化し、ブロック数を集計したいと思います。したがって、連続カウントは「m + n」になるはずです。

これがデータセットです-

これが私のコードです-

2016-03-09T06:37:16.650

0 投票する

1 に答える

722 参照

machine-learning - ScikitLearn パイプライン内の FeatureUnion から機能名を抽出する

SKlearn のパイプラインモデルを使用して、ランダムフォレスト分類器に送信される結合された機能を抽出および構築していますが、一部の機能エクストラクタは後で削除または追加できます。次の構造を検討してください。

を調べて、ランダムフォレストの予測を改善したいと思います。

RandomForstRegressor のプロパティ

次を使用してリストを取得できました。

そして今、feature_importances_ インデックスの列番号をパイプラインの機能名/ステップに動的にリンクしたいと思います。

フィーチャーユニオン内でフィーチャー名を保存/取得するための推奨される方法はありますか? この問題にどのように対処しますか?

machine-learning scikit-learn random-forest data-science sklearn-pandas

2016-03-09T11:31:11.877

0 投票する

1 に答える

1712 参照

python - パンダのインデックス作成エラー

ここでインデックス作成の間違いを見つけることができません。これはばかげた間違いに違いないと確信しています。「ブロック」サイズが 1 の行の「td」値を 0 に設定したいです。最初にそのような行を見つけてから、それらのインデックスを使用して列「td」の値を 0 に設定します。サンプルデータセット。ここで、ブロック番号 5、7、8 を除いて、他のすべてのブロック値は「td」列で 0 に設定する必要があります。

これが私のコードです。予期しない出力が得られます。

期待される出力 -

python pandas data-science

2016-03-10T20:14:57.530

0 投票する

2 に答える

163 参照

python - クリックストリームでセッション期間を見つける for ループを最適化するにはどうすればよいですか?

私は Python データサイエンスの初心者で、クリックストリーム分析を行っています。ファイルサイズが大きすぎます。約 3,300 万行です。セッション期間を見つけるために作成したこのスクリプトを実行しています。操作の進行状況を確認するために i を出力しています。しかし、12 時間近くが経過し、400 000 までしか到達していません。900 万近くのセッションがあります。この速度だと270時間(11日)近くかかります。時間を短縮するには、これを最適化する必要があります。

データセットは次のとおりです。

これが私のコードです。for ループが動作を遅くしていると思います。セッション期間については、最初にすべてのセッションで最大タイムスタンプと最小タイムスタンプを見つけています。次に、for ループでそれらを seconds.microseconds に変換し、Tstamp 列で同時更新を使用して最終的な減算を行います。

このコードを最適化するために何ができるか。

編集 1: マイクロ秒の部分を削除しました。

python performance pandas data-science

2016-03-14T01:29:24.813

0 投票する

1 に答える

3826 参照

machine-learning - 機械学習と明示的プログラミングの違い

私はデータサイエンス分野の初心者です。だから私は彼の基本を段階的に理解しようとしています。彼の最も重要な分野の 1 つに、機械学習があります。

私はこの定義を見つけました：

「機械学習は、機械が明示的にプログラムされなくても学習できるようにするための研究分野です。」

私にとってまだ曖昧なのは、プログラミングせずに機械に学習能力を与えるにはどうすればよいかということです!!

誰でも私にこれを明確にしてもらえますか?

machine-learning data-science

2016-03-18T14:23:54.047

0 投票する

1 に答える

106 参照

r - R-Studio の外観の設定

コードを読みやすくしたい。たとえば、ヒスト関数の引数を赤 (プロットと赤のブレーク) に色付けし、その値を青 (FALSE と青の 20) に色付けしたい -- hist(plot = FALSE, allzips$centile, breaks = 20)。R-studioで設定するパラメータを知っている人はいますか? 私は外見でたくさん遊んでいますが、決して修正されません.

ありがとう、

カルビ

r shiny data-science

2016-03-19T20:27:27.523

0 投票する

1 に答える

818 参照

python - 分類子を使用して上位 5 つのトピックの精度を取得するにはどうすればよいですか?

22465 のテストドキュメントがあり、88 の異なるトピックに分類しています。上位 5 つの予測トピックを取得するために predict_proba を使用しています。これら 5 つのトピックの精度を出力するにはどうすればよいですか?

正確さのために、これは私がやっていることです：

精度のために

同じ方法で上位 5 つのトピックの精度を見つけるにはどうすればよいですか? Scikit メトリクスは使用を拒否します

python machine-learning scikit-learn data-science

2016-03-20T05:38:41.197

0 投票する

1 に答える

662 参照

machine-learning - Web ログインタイムスタンプの時系列予測

時系列予測モデルを構築する必要があり、ユーザーがサイトにログインしたときの一連のタイムスタンプしかない場合、それをどのようにモデル化しますか?

これは、データの最初の数行です。パンダシリーズとして持っています。

いくつかの質問があります：

1)。タイムスタンプしかなく、Y 値やその他の機能がない場合に、時間単位でユーザーの行動をグラフ化する方法

2)。この時系列に適合するモデルを構築し、次の 2 週間を予測します。

他の機能や変数は指定されていません。毎日3か月ほどログインするだけです。

machine-learning time-series regression data-science

2016-03-21T01:59:32.520

問題タブ [data-science]

Reference