問題タブ [kaggle]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 非スーパー コンピューターで大量のデータを処理するための一般的な手法
私はいくつかの AI クラスを受講しており、実験したいいくつかの基本的なアルゴリズムについて学びました。私は、データ分析コンテストを主催するKaggleを通じて、多くの優れた現実世界のデータを含むいくつかのデータ セットにアクセスすることができました。
機械学習のスキルを向上させるためにいくつかのコンテストに参加しようとしましたが、コード内のデータにアクセスする良い方法を見つけることができませんでした。Kaggle は、競技ごとに 50 ~ 200 MB の 1 つの大きなデータ ファイルを csv 形式で提供します。
コードでこれらのテーブルを読み込んで使用する最良の方法は何ですか? 私の最初の本能はデータベースを使用することだったので、csv を単一のデータベースの sqlite にロードしようとしましたが、これはコンピューターに多大な負荷をかけ、コミット中にコンピューターがクラッシュすることがよくありました。次に、共有ホストで mysql サーバーを使用してみましたが、クエリを実行するのに時間がかかり、分析コードが非常に遅くなりました。さらに、帯域幅を超えてしまうのではないかと心配しています。
これまでの私のクラスでは、通常、インストラクターがデータをクリーンアップし、RAM に完全にロードできる管理可能なデータセットを提供してくれました。明らかに、これは私の現在の興味では不可能です。どのように進めればよいか提案してください。現在、4 GB RAM とデュアルコア 2.1 Ghz CPU を搭載した 4 年前の MacBook を使用しています。
ところで、私はこの言語を最もよく知っているので、分析の大部分を Python で行うことを望んでいます。この言語ですべてまたはほぼすべてのコーディングを実行できるソリューションが必要です。
r - 線形モデル関数 lm() エラー: 外部関数呼び出しの NA/NaN/Inf (arg 1)
data.frame があるとしますa
私が使う
col2
にはいくつかのNA
値がcol3
あり、col4
値は 1 未満です。
私は得続けます
メーリング リストを確認したところ、NA
sが原因のようですが、col2
使用してみましna.action=na.exclude/omit/pass
たが、どれも機能していないようです。lm
最初の 10 エントリで再度テストしましたが、 NA
s のせいではありません。この警告の問題は、すべての Google の結果が を指しているように見えることですNA
。
エラーを誤解したか、lm
間違って使用していますか?
データはkaggleにあります。線形回帰を使用してMonthlyIncomeデータをモデル化しています (特定のglm
家族を機能させることができなかったため)。使用する独自の変数を作成しましたが、既に存在する変数でMonthlyIncomeをモデル化しようとすると失敗します。
machine-learning - 線形回帰に機能を追加すると精度が低下するのはなぜですか?
私は ML が初めてで、少し学ぶために kaggle コンテストに取り組んでいます。データセットに特定の機能を追加すると、精度が低下します。
コストに追加する機能の重みをゼロ (無視) にしないのはなぜですか? 非線形の特徴が極小解を引き起こす可能性があるためですか?
ありがとう。
kinect - Kinect SDK は、ライブの Kinect ではなく、保存された深度/RGB ビデオで実行できますか?
この質問は、Kaggle/CHALEARN ジェスチャー認識チャレンジに関連しています。
Kinect から記録された一致する RGB および深度ビデオの大規模なトレーニング セットが与えられます。これらのビデオで Kinect SDK の骨格追跡を使用したいと考えていますが、一連の検索の後、これが可能かどうかについて決定的な答えが見つかりませんでした。
Kinect SDK を以前に記録された Kinect ビデオで使用することは可能ですか? 助けてくれてありがとう。
python - numpyを使用してcsvファイルを読み取る際の主要なメモリの問題
Kaggle から KDD track1 データセットを取得し、16 GB のハイメモリ EC2 インスタンスで、最大 2.5 GB の 3 列の CSV ファイルをメモリにロードすることにしました。
Python セッションがすべてのメモリ (100%) を使い果たし、その後強制終了されました。
次に、R を使用して (read.table 経由で) 同じファイルを読み取り、5 GB 未満の RAM を使用しましたが、ガベージ コレクターを呼び出した後、2 GB 未満に縮小しました。
私の質問は、これが numpy で失敗した理由と、ファイルをメモリに読み込む適切な方法です。はい、ジェネレーターを使用して問題を回避できますが、それが目標ではありません。
numpy - PyDev の解決 numpy と sklearn に関する未解決のインポート
これらの未解決のインポートを解決するために見つけることができるほとんどすべてのものがあります。インポートしようとしているものは次のとおりです。
PyDev を実行している Mac OS X Lion の Eclipse では、次のエラーが発生します。
これはKaggleをセットアップするためのものであることに注意してください。
私が得られないのは、ターミナルで次のコマンドを入力すると、すべて問題ないように見えることです (目に見えるエラーは表示されません)。
可能な解決策を知っている場合は、詳細な手順で説明してください。Mac と PyDev は初めてです
r - Rで最近傍を表示するには?
R、KNN、またはデータサイエンス全般の経験がないことから始めましょう。私は最近Kaggleを見つけ、数字認識コンペティション/チュートリアルで遊んでいます。
このチュートリアルでは、基本的な送信を開始するためのサンプル コードをいくつか提供しています。
私の質問は次のとおりです。
- 特定のテスト行で選択された最近傍を表示するにはどうすればよいですか?
- これらの 10 個のうちどれが自分の に選択されているかを変更するにはどうすればよい
results
ですか?
これらの質問は広すぎるかもしれません。もしそうなら、正しい道を示すことができるリンクを歓迎します.
ここで意味をなさないことを言った可能性が非常に高いです。これが事実である場合、私を修正してください。
r - RのLSAパッケージのtextmatrix関数でエラーを回避する方法
私はこの Kaggle コンペティションに参加していますが、RのLSA パッケージのtextmatrix関数に詳しい人がいるかどうか疑問に思っています。
基本的に、textmatrix関数はディレクトリを引数として受け入れ、指定されたディレクトリ内で見つかったすべてのテキスト ファイルを使用して textmatrix を作成します。
残念ながら、textmatrix関数は、用語が含まれていないテキスト ファイルを検出するとエラーをスローします (たとえば、ストップ ワードを使用してフィルター処理した場合に発生する可能性があります)。
最終的に用語がゼロになるファイルをtextmatrix に無視させる簡単な方法を知っている人はいますか? または、これらのファイルを特定して削除する比較的迅速な方法はありますか?
ティア!
r - Plyr、Apply などを使用してこの R コードをベクトル化する方法は?
ディレクトリ内の重複ファイルを識別する次の R コードを作成しました。plyr パッケージ (または類似のもの) を使用して for ループをベクトル化するにはどうすればよいですか? 私が思いついたものよりも慣用的な R ソリューションを実現したいと考えています。
出力は次のとおりです(小さなテストディレクトリを使用):
私は試した:
(MD5、ファイル名)のすべてのキーと値のペアに対して一意の行になりました。必要なコンパクトな出力を得ることができませんでした。
(背景: 演習として、Raymond Hettinger が PyCon AU 2011 の基調講演「What Makes Python Awesome」で提示した Python コードを変換しました。スライドはここにあります: http://slidesha.re/WKkh9M。 LOC は半分ですが、ベクトル化することで、より良く、より多くのことを学ぶことができると思います)。