問題タブ [train-test-split]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 比率を指定して、ファイルをトレーニング/テストにランダムに配布します
私は現在、手動で行う必要がないように、ワークスペースをセットアップできるセットアップスクリプトを作成しようとしています。私はこれをbashで始めましたが、すぐにうまくいかないことに気付きました。
私の次のアイデアは、Pythonを使用してそれを行うことでしたが、適切な方法で行うことができないようです.. 、比率を指定して、各ファイルを電車のディレクトリまたはテストのディレクトリに移動します....
しかし、これはpythonです。もっと簡単な方法はありませんか。ファイルを分割するためだけに、不要な回避策を行っているようです。
バッシュコード:
私の問題は最後の部分でした。数字をランダムに選んでいるので、データが希望どおりに分割されるかどうかはわかりません。最後のifステートメントは、分割が正しく行われたかどうかを確認し、そうでない場合は修正することでした..これは不可能だったので私は浮動小数点をチェックしていますが、一般的な解決策は簡単な修正のようになりました。
python - テンソルフローでk分割交差検証を実行するには?
私はtensorflow の IRIS の例に従っています。
私の場合、すべてのデータが分離されていない単一の CSV ファイルにあり、そのデータに k 分割クロス検証を適用したいと考えています。
私は持っている
IRIS の例と同じように、多層ニューラル ネットワークを使用して、このデータセットに対して k 分割交差検証を実行するにはどうすればよいですか?
apache-spark - スパークトレイン試験分割
最新の 2.0.1 リリースで apache-sparkの sklearn の http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedShuffleSplit.htmlに似たものがあるかどうか興味があります。
これまでのところ、 https://spark.apache.org/docs/latest/mllib-statistics.html#stratified-samplingしか見つかりませんでした。これは、非常に不均衡なデータセットをトレーニング / テスト サンプルに分割するのには適していないようです。
python - ShuffleSplit が train_test_split (random_state=None の場合) よりランダムである/少ないのはなぜですか?
提示された次の 2 つのオプションを検討してください。
出力のコピーを次に示します。
オプション B の ShuffleSplit 関数が、オプション C の train_test_split 関数 (random_state=None) よりもランダムな結果を提示する理由を説明できる人はいますか?
python - scikit-learn での階層化されたトレーニング/検証/テスト分割
ここには、train_test_split ( Stratified Train/Test-split in scikit-learn ) を介して scikit で階層化されたトレーニング/テスト分割を行う方法の説明と、 np.split を介してランダムなトレーニング/検証/テスト分割を行う方法の説明 ( Howデータを 3 つのセット (トレーニング、検証、テスト) に分割するには? )。しかし、層化されたトレーニング/検証/テスト分割を行うことはどうですか。
階層化された (クラス ラベルでの) トレーニング/検証/テスト分割を実行するために頭に浮かぶ最も近い概算は次のとおりですが、1 回の関数呼び出しまたはより正確な方法でこれを達成できるより良い方法があると思います。
60/20/20 のトレーニング/検証/テストの分割を行いたいとしましょう。次に、私の現在のアプローチは、最初に 60/40 の成層分割を行い、次にその最初の 40 に対して 50/50 の層分割を行い、最終的に60/20/20 層別分割。
私のアプローチが正しい場合、および/またはより良いアプローチがある場合は、戻ってきてください。
ありがとうございました
python - sklearn を使用したデータ分割のランダム状態パラメーターに関する問題
sklearn のドキュメントで random -state パラメーターを探すと、次のようになります。
random_state : int または RandomState ランダム サンプリングに使用される疑似乱数ジェネレーターの状態。
どういうことかよくわかりません。
さまざまな分類子の精度は、ランダム状態パラメーターに書き込む数値によって著しく変化します。何故ですか?どの番号を設定すればよいですか?
機械学習プロジェクトに参加するのは初めてです。