問題タブ [kaggle]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python または R で csv をインポートするとサイズが 2 倍になるのはなぜですか
これはおそらくよく知られている答えです....しかし、11GB のファイル (csv) が Python (Pandas) または R にインポートされると、なぜそのサイズの 2 倍以上になるのでしょうか?
問題のデータは、解凍すると 11GBの Kaggle 競技会(train ファイル) からのものです。Python や R にロードすると、その 2 倍以上のスペースが必要になります。Windows には 32 GB の RAM があり (ファイルをロードすると 29 GB まで空きます)、空き容量がほとんどありません。
Python の場合:
Rで:
python - TypeError: fit() は sklearn と sklearn_pandas で正確に 3 つの引数 (2 つ指定) を取ります
sklearn_pandas モジュールを使用して pandas で行っている作業を拡張し、機械学習に足を踏み入れようとしていますが、修正方法がよくわからないエラーに苦しんでいます。
Kaggleで次のデータセットを使用していました。
これは基本的に、浮動小数点値を持つヘッダーなしのテーブル (1000 行、40 の機能) です。
出力:
ここまでは順調ですね。しかし、私はフィット感を試します
出力:
私は何を間違っていますか?この場合のデータはすべて同じですが、カテゴリ、名義、および浮動小数点機能の混合のワークフローを作成することを計画しており、sklearn_pandas は論理的に適合しているように見えました。
python - パンダの警告「行は非推奨です。代わりにインデックスを使用してください」
iPython ノートブックで pandas を使用して、Kaggle Titanic データセットを操作しています。
ピボット テーブルを作成すると、次の警告が表示されます。
FutureWarning: 行は非推奨です。代わりにインデックスを使用します warnings.warn(msg, FutureWarning)
これは私が心配すべきことですか?私がしたことは、ピボットテーブルを作成することだけでした:
さらに、ピボット テーブルの値を使用して NA 値を入力しようとすると、次の警告が表示されます。
FutureWarning: インデックス タイプ Int64Index のスカラー インデクサーは整数であり、浮動小数点タイプ (self) ではありません。名前),FutureWarning
r - 分割を使用して 1 つの列を 2 つ以上の列に分割しようとしています
私は R が初めてで、Kaggle の Titanic データセットを使用して練習しています。姓、名、敬称、その他の情報を別々の列に分けて、乗客の年齢 (大人または子供) を分類しようとしています。
以下は、Train データ セットのサンプル データです。
以下は、Name を含むサンプルです。
次のコードを使用して、姓を列の残りの部分から分離できます。
ただし、名のフィールドを追加しようとすると:
次のエラーが表示されます。
間違った構文を使用していますか、または 1 つの列から 3 つのフィールドを使用できませんか?
python - pandas srt.lower()がデータフレーム列で機能しない
Kaggle から入手できる Titanic データセットを使用しています。私はそれをデータフレームに持っていて、「性別」列の大文字と小文字を小文字に変更したいと考えています。次のコードを使用しています
また、しようとしています
df['sex'].str.lower()
しかし、実行するdf['sex'].unique()
と、3 つの一意の値が得られます[male, female, Female]
。
私のコードが文字列の大文字と小文字を区別せず、データフレームに保存し[male, female]
てメソッドから抜け出さないのはなぜ.unique
ですか?
r - rのdata.tableのinteger64クラスのデータをフィルタリングする方法
kaggle ( http://www.kaggle.com/c/acquire-valued-shoppers-challenge/data ) から 20GB のトランザクション データ セットがあります。
行は 3 億を超え、変数は 11 です。
Rで扱うには重すぎるので、データをフィルタリングしたい。
id クラスは interger64 です。
固有 ID は 311541 で、サンプル 20000 が必要です。
data.table を使っていますが、写真のようなエラーが出ます。
IDをサンプリングする方法はありますか?
pandas - Sci-kit 学習パイプラインが indexError を返します: 配列のインデックスが多すぎます
いくつかの単純な機械学習プロジェクトで sci-kit Learn を理解しようとしていますが、パイプラインに行き詰まり、何が間違っているのか疑問に思っています...
Kaggleのチュートリアルに取り組もうとしています
これが私のコードです:
戻り値:
しかし、データをトレーニングしようとすると:
エラーは次のとおりです。
誰かが私を正しい方向に向けることができますか?