“kaggle”の関連問題_Stack Overflow日本語サイト

0 投票する

5 に答える

11185 参照

python - 非スーパーコンピューターで大量のデータを処理するための一般的な手法

私はいくつかの AI クラスを受講しており、実験したいいくつかの基本的なアルゴリズムについて学びました。私は、データ分析コンテストを主催するKaggleを通じて、多くの優れた現実世界のデータを含むいくつかのデータセットにアクセスすることができました。

機械学習のスキルを向上させるためにいくつかのコンテストに参加しようとしましたが、コード内のデータにアクセスする良い方法を見つけることができませんでした。Kaggle は、競技ごとに 50 ～ 200 MB の 1 つの大きなデータファイルを csv 形式で提供します。

コードでこれらのテーブルを読み込んで使用する最良の方法は何ですか? 私の最初の本能はデータベースを使用することだったので、csv を単一のデータベースの sqlite にロードしようとしましたが、これはコンピューターに多大な負荷をかけ、コミット中にコンピューターがクラッシュすることがよくありました。次に、共有ホストで mysql サーバーを使用してみましたが、クエリを実行するのに時間がかかり、分析コードが非常に遅くなりました。さらに、帯域幅を超えてしまうのではないかと心配しています。

これまでの私のクラスでは、通常、インストラクターがデータをクリーンアップし、RAM に完全にロードできる管理可能なデータセットを提供してくれました。明らかに、これは私の現在の興味では不可能です。どのように進めればよいか提案してください。現在、4 GB RAM とデュアルコア 2.1 Ghz CPU を搭載した 4 年前の MacBook を使用しています。

ところで、私はこの言語を最もよく知っているので、分析の大部分を Python で行うことを望んでいます。この言語ですべてまたはほぼすべてのコーディングを実行できるソリューションが必要です。

2011-08-18T22:20:14.380

0 投票する

10 に答える

104587 参照

r - 線形モデル関数 lm() エラー: 外部関数呼び出しの NA/NaN/Inf (arg 1)

data.frame があるとしますa

私が使う

col2にはいくつかのNA値がcol3あり、col4値は 1 未満です。

私は得続けます

メーリングリストを確認したところ、NAsが原因のようですが、col2使用してみましna.action=na.exclude/omit/passたが、どれも機能していないようです。lm最初の 10 エントリで再度テストしましたが、 NAs のせいではありません。この警告の問題は、すべての Google の結果がを指しているように見えることですNA。

エラーを誤解したか、lm間違って使用していますか?

データはkaggleにあります。線形回帰を使用してMonthlyIncomeデータをモデル化しています (特定のglm家族を機能させることができなかったため)。使用する独自の変数を作成しましたが、既に存在する変数でMonthlyIncomeをモデル化しようとすると失敗します。

r nan lm kaggle

2011-12-07T13:06:52.390

0 投票する

2 に答える

3092 参照

machine-learning - 線形回帰に機能を追加すると精度が低下するのはなぜですか?

私は ML が初めてで、少し学ぶために kaggle コンテストに取り組んでいます。データセットに特定の機能を追加すると、精度が低下します。

コストに追加する機能の重みをゼロ (無視) にしないのはなぜですか? 非線形の特徴が極小解を引き起こす可能性があるためですか?

ありがとう。

machine-learning linear-regression kaggle

2011-12-12T01:54:03.217

0 投票する

1 に答える

1141 参照

kinect - Kinect SDK は、ライブの Kinect ではなく、保存された深度/RGB ビデオで実行できますか?

この質問は、Kaggle/CHALEARN ジェスチャー認識チャレンジに関連しています。

Kinect から記録された一致する RGB および深度ビデオの大規模なトレーニングセットが与えられます。これらのビデオで Kinect SDK の骨格追跡を使用したいと考えていますが、一連の検索の後、これが可能かどうかについて決定的な答えが見つかりませんでした。

Kinect SDK を以前に記録された Kinect ビデオで使用することは可能ですか? 助けてくれてありがとう。

kinect kaggle

2011-12-27T21:10:56.333

0 投票する

3 に答える

2915 参照

python - numpyを使用してcsvファイルを読み取る際の主要なメモリの問題

Kaggle から KDD track1 データセットを取得し、16 GB のハイメモリ EC2 インスタンスで、最大 2.5 GB の 3 列の CSV ファイルをメモリにロードすることにしました。

Python セッションがすべてのメモリ (100%) を使い果たし、その後強制終了されました。

次に、R を使用して (read.table 経由で) 同じファイルを読み取り、5 GB 未満の RAM を使用しましたが、ガベージコレクターを呼び出した後、2 GB 未満に縮小しました。

私の質問は、これが numpy で失敗した理由と、ファイルをメモリに読み込む適切な方法です。はい、ジェネレーターを使用して問題を回避できますが、それが目標ではありません。

python r pandas numpy kaggle

2012-04-22T02:35:06.523

0 投票する

3 に答える

5857 参照

numpy - PyDev の解決 numpy と sklearn に関する未解決のインポート

これらの未解決のインポートを解決するために見つけることができるほとんどすべてのものがあります。インポートしようとしているものは次のとおりです。

PyDev を実行している Mac OS X Lion の Eclipse では、次のエラーが発生します。

これはKaggleをセットアップするためのものであることに注意してください。

私が得られないのは、ターミナルで次のコマンドを入力すると、すべて問題ないように見えることです (目に見えるエラーは表示されません)。

可能な解決策を知っている場合は、詳細な手順で説明してください。Mac と PyDev は初めてです

numpy scipy scikit-learn pydev kaggle

2012-07-21T18:29:03.813

0 投票する

1 に答える

19419 参照

r - Rで最近傍を表示するには?

R、KNN、またはデータサイエンス全般の経験がないことから始めましょう。私は最近Kaggleを見つけ、数字認識コンペティション/チュートリアルで遊んでいます。

このチュートリアルでは、基本的な送信を開始するためのサンプルコードをいくつか提供しています。

私の質問は次のとおりです。

特定のテスト行で選択された最近傍を表示するにはどうすればよいですか?
これらの 10 個のうちどれが自分のに選択されているかを変更するにはどうすればよいresultsですか?

これらの質問は広すぎるかもしれません。もしそうなら、正しい道を示すことができるリンクを歓迎します.

ここで意味をなさないことを言った可能性が非常に高いです。これが事実である場合、私を修正してください。

r kaggle

2012-08-28T05:27:01.403

0 投票する

1 に答える

725 参照

r - RのLSAパッケージのtextmatrix関数でエラーを回避する方法

私はこの Kaggle コンペティションに参加していますが、RのLSA パッケージのtextmatrix関数に詳しい人がいるかどうか疑問に思っています。

基本的に、textmatrix関数はディレクトリを引数として受け入れ、指定されたディレクトリ内で見つかったすべてのテキストファイルを使用して textmatrix を作成します。

残念ながら、textmatrix関数は、用語が含まれていないテキストファイルを検出するとエラーをスローします (たとえば、ストップワードを使用してフィルター処理した場合に発生する可能性があります)。

最終的に用語がゼロになるファイルをtextmatrix に無視させる簡単な方法を知っている人はいますか? または、これらのファイルを特定して削除する比較的迅速な方法はありますか?

ティア！

r kaggle lsa

user141146

2012-08-28T01:46:52.820

0 投票する

2 に答える

331 参照

r - Plyr、Apply などを使用してこの R コードをベクトル化する方法は?

ディレクトリ内の重複ファイルを識別する次の R コードを作成しました。plyr パッケージ (または類似のもの) を使用して for ループをベクトル化するにはどうすればよいですか? 私が思いついたものよりも慣用的な R ソリューションを実現したいと考えています。

出力は次のとおりです（小さなテストディレクトリを使用）：

私は試した：

（MD5、ファイル名）のすべてのキーと値のペアに対して一意の行になりました。必要なコンパクトな出力を得ることができませんでした。

(背景: 演習として、Raymond Hettinger が PyCon AU 2011 の基調講演「What Makes Python Awesome」で提示した Python コードを変換しました。スライドはここにあります: http://slidesha.re/WKkh9M。 LOC は半分ですが、ベクトル化することで、より良く、より多くのことを学ぶことができると思います)。

r vectorization plyr kaggle

2012-12-27T19:50:11.253

問題タブ [kaggle]

Reference