問題タブ [kaggle]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
6485 参照

r - R: 強制によって導入された Kaggle Titanic Dataset Random Forest NA

現在、タイタニック データ セットを使用して Kaggle で R を練習しています。ランダム フォレスト アルゴリズムを使用しています。

以下はコードです

次のエラーが表示されます

私のデータは以下のようになります

以下を入力するだけで、NA値を作成するために強制が発生する唯一の場所であることがわかる限り、強制の問題はありません

誰でも問題を見ることができますか

お時間をいただきありがとうございます

0 投票する
2 に答える
6853 参照

python - インスタンス化時に Python クラス メソッドを自動的に呼び出す最良の方法

データのクリーニング、トレーニングデータの準備など、一連のステップを含む機械学習アルゴリズムがあります。各ステップは、python クラスの個別のメソッドに保存されます。クラスのインスタンス化時にステップが自動的に実行されるように、クラスを構築するためのベストプラクティスの方法は何だろうと思っています。

これが私がやったことです(コードは説明用ですが、このアプローチは実際のアルゴリズムで機能します)。少しゴツい感じです。もっとエレガントな方法はありますか?

0 投票する
0 に答える
394 参照

r - Kaggle Titanic: キャビン予測のための災害決定木からの機械学習

変数の 1 つである「キャビン」には、大量の NA があります。決定木 (rpart) を使用して、キャビンが利用できない乗客のキャビン デッキを予測しようとしています。

現在、これは私のデータ テーブルの構造であり、トレーニング セットとテスト セットの rbind です。

strsplit を使用して「Cabin」変数の文字を抽出した「Cabin2」を作成したことに注意してください。これは、私の理解ではタイタニック号のデッキに対応しています。これにより、私が戦っていたレベルの数が、'Cabin' の 187 から 'Cabin2' の 8 に大幅に減少しました。

次のコードを使用してキャビン デッキを予測しようとしています。

Rによってスローされている出力は次のとおりです。

これらのデータをいじり続けているので、必死にこれを理解しようとしていますが、このコードがうまくいかない理由がわかりません。

0 投票する
1 に答える
10517 参照

scala - Spark を使用してディレクトリから複数のファイルを読み取る

私はsparkを使用してkaggleでこの問題を解決しようとしています:

入力の階層は次のようになります。

親ディレクトリ「drivers」を読み取り、各サブディレクトリに対して、キーを( sub_directory ,file_name)として、値をファイルのコンテンツとしてペアRDD を作成したいと考えています。

このリンク を確認して使用しようとしました

これはエラーで失敗しました:

しかし、以下のコードを実行すると動作します。

ここでは、ディレクトリドライバーを読み取ってファイルをループし、エントリごとにwholeTextFilesを呼び出す必要があるためです。

0 投票する
1 に答える
1616 参照

r - Shinyapps.io に R マークダウン ドキュメントをデプロイする

Shinyapp.io サーバーに R マークダウン ドキュメントをデプロイしようとしています。

こちら で説明されている手順に従いました。ただし、ステップ 8 は「デプロイ」ボタンの存在を示しています。このボタンがありません。

別の方法として、私は試しました:

  1. 新しい R スクリプトを開く
  2. .Rmd ファイルの作業ディレクトリに移動します
  3. 次のコマンドを実行しました。deployApp( appName = "Titanic")

ログは、すべてが正しくアップロードされていることを示していました。しかし、宛先ページには「見つかりません」と表示されました。

私の質問:

  1. 「デプロイ」ボタンが表示されなかったのはなぜですか?
  2. ページに「見つかりません」と表示されるのはなぜですか?

以下に、マークダウン ドキュメントで使用したヘッダーを示します。

前もって感謝します

0 投票する
2 に答える
549 参照

r - Ggvis 棒グラフ - 色の選択

Kaggle の「train」データセットを使用しています。

これには 891 行が含まれます。私が使用している列は ~Survived です。この列は、係数値 '0' と '1' で構成されます。

次のコード行を使用して、2 つの値をプロットしました。

結果は次のようになります。

ここに画像の説明を入力

値「0」のバーを赤色、値「1」のバーを緑色にしたいと思います。

誰か助けてくれませんか?

前もって感謝します。

0 投票する
0 に答える
162 参照

python - Python コードは、Visual Studio 2013 で PTVS を使用してループで実行されます

私は単純な Python コード (Kaggle の数字認識演習) を持っています。これは、コマンド ラインから実行すると問題なく動作します (Windows 8.1 64 ビットと Enthought Canopy 1.4.1 を使用しています)。

すべての開発を Visual Studio に移行することにしたので、Python Tools for Visual Studio 2.1 をインストールして、VS Community 2013 内から直接コーディング/実行を開始しました。 (注: インストールの順序: (1) Canopy、(2) VS2013、および(3) PTVS.)

ただし、VS2013 内から実行すると、同じコードが非常に奇妙な動作をします。クロス検証ステップまで実行され、コードのループを開始してすべてを何度も再実行し、途中で次のようにエラー メッセージを吐き出すことがあります。 PTVS_VS2013_loopOverCode_error

ご覧のとおり、クロス検証ステップに到達すると、最初からやり直し、コードをランダムに調べて、コードの特定の部分のみを実行します!

何か案は?