問題タブ [kaggle]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python または R で csv をインポートするとサイズが 2 倍になるのはなぜですか
これはおそらくよく知られている答えです....しかし、11GB のファイル (csv) が Python (Pandas) または R にインポートされると、なぜそのサイズの 2 倍以上になるのでしょうか?
問題のデータは、解凍すると 11GBの Kaggle 競技会(train ファイル) からのものです。Python や R にロードすると、その 2 倍以上のスペースが必要になります。Windows には 32 GB の RAM があり (ファイルをロードすると 29 GB まで空きます)、空き容量がほとんどありません。
Python の場合:
Rで:
python - TypeError: fit() は sklearn と sklearn_pandas で正確に 3 つの引数 (2 つ指定) を取ります
sklearn_pandas モジュールを使用して pandas で行っている作業を拡張し、機械学習に足を踏み入れようとしていますが、修正方法がよくわからないエラーに苦しんでいます。
Kaggleで次のデータセットを使用していました。
これは基本的に、浮動小数点値を持つヘッダーなしのテーブル (1000 行、40 の機能) です。
出力:
ここまでは順調ですね。しかし、私はフィット感を試します
出力:
私は何を間違っていますか?この場合のデータはすべて同じですが、カテゴリ、名義、および浮動小数点機能の混合のワークフローを作成することを計画しており、sklearn_pandas は論理的に適合しているように見えました。
python - パンダの警告「行は非推奨です。代わりにインデックスを使用してください」
iPython ノートブックで pandas を使用して、Kaggle Titanic データセットを操作しています。
ピボット テーブルを作成すると、次の警告が表示されます。
FutureWarning: 行は非推奨です。代わりにインデックスを使用します warnings.warn(msg, FutureWarning)
これは私が心配すべきことですか?私がしたことは、ピボットテーブルを作成することだけでした:
さらに、ピボット テーブルの値を使用して NA 値を入力しようとすると、次の警告が表示されます。
FutureWarning: インデックス タイプ Int64Index のスカラー インデクサーは整数であり、浮動小数点タイプ (self) ではありません。名前),FutureWarning
r - 分割を使用して 1 つの列を 2 つ以上の列に分割しようとしています
私は R が初めてで、Kaggle の Titanic データセットを使用して練習しています。姓、名、敬称、その他の情報を別々の列に分けて、乗客の年齢 (大人または子供) を分類しようとしています。
以下は、Train データ セットのサンプル データです。
以下は、Name を含むサンプルです。
次のコードを使用して、姓を列の残りの部分から分離できます。
ただし、名のフィールドを追加しようとすると:
次のエラーが表示されます。
間違った構文を使用していますか、または 1 つの列から 3 つのフィールドを使用できませんか?
python - pandas srt.lower()がデータフレーム列で機能しない
Kaggle から入手できる Titanic データセットを使用しています。私はそれをデータフレームに持っていて、「性別」列の大文字と小文字を小文字に変更したいと考えています。次のコードを使用しています
また、しようとしています
df['sex'].str.lower()
しかし、実行するdf['sex'].unique()
と、3 つの一意の値が得られます[male, female, Female]
。
私のコードが文字列の大文字と小文字を区別せず、データフレームに保存し[male, female]
てメソッドから抜け出さないのはなぜ.unique
ですか?
r - rのdata.tableのinteger64クラスのデータをフィルタリングする方法
kaggle ( http://www.kaggle.com/c/acquire-valued-shoppers-challenge/data ) から 20GB のトランザクション データ セットがあります。
行は 3 億を超え、変数は 11 です。
Rで扱うには重すぎるので、データをフィルタリングしたい。
id クラスは interger64 です。
固有 ID は 311541 で、サンプル 20000 が必要です。
data.table を使っていますが、写真のようなエラーが出ます。
IDをサンプリングする方法はありますか?
pandas - Sci-kit 学習パイプラインが indexError を返します: 配列のインデックスが多すぎます
いくつかの単純な機械学習プロジェクトで sci-kit Learn を理解しようとしていますが、パイプラインに行き詰まり、何が間違っているのか疑問に思っています...
Kaggleのチュートリアルに取り組もうとしています
これが私のコードです:
戻り値:
しかし、データをトレーニングしようとすると:
エラーは次のとおりです。
誰かが私を正しい方向に向けることができますか?
python - エラー: 'utf8' コーデックは位置 0 のバイト 0x80 をデコードできません: 無効な開始バイト
次のkaggle assignmnetを実行しようとしています。word2vecを使用するためにgensimパッケージを使用しています。モデルを作成してディスクに保存できます。しかし、ファイルを読み込もうとすると、以下のエラーが発生します。
同様の質問を見つけました。しかし、私は問題を解決できませんでした。私のprog_w2v.pyは以下の通りです。
コード hereを使用してモデルを生成しようとしています。プログラムがモデルを生成するのに約 30 分かかります。したがって、デバッグのために何度も実行することはできません。
r - train.default(x, y, weights = w, ...) のエラー: 最終調整パラメーターを決定できませんでした
私は機械学習に非常に慣れておらず、 Kaggleで森林被覆予測コンテストを試みていますが、かなり早い段階でハングアップしています。以下のコードを実行すると、次のエラーが発生します。
python - スタンフォード NLP パーサーは、Kaggle ムービー レビューで使用された同じステートメントに対して異なる結果 (感情) を与える
私は Kaggle Movie Sentiment Analysis に取り組んでおり、Standford Parser を使用して映画のレビューが解析されていることがわかりました。データセットを探索すると、同じステートメントが異なる設定を示していることがわかりました-
ここで、english は解析されたデータで、数字はセンチメントに属します。ここで、行を確認すると、カンマとドットだけが違いますが、残りは同じですが、両方とも異なる感情に属しているため、分類するのに多くの問題が発生しています.
このような問題を回避するためにテキスト分類で何をすべきか、重複を無視して既に追加された感情を使用すると、分類がひどく間違ってしまうので、そのようなシナリオを解決する方法はどうあるべきか.