問題タブ [train-test-split]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
95 参照

python - 特定のアイテムを 1 つのセットにまとめながら、テスト & トレーニング セットを作成する

約 500 の異なる段落で構成されるデータセットがあります。各段落について、他の段落へのリンクがあるかどうかを確認しようとしています。これに基づいて、段落ペアを作成しました。以前は、この問題をバイナリの問題 (0 または 1、リンクがあるかどうか) としてアプローチしようとしましたが、今度はランキング (各段落ペアに確率を割り当てる) を試してみたいと思います。

私の問題は次のとおりです: テストとトレーニング セットをランダムに分割し、各段落のすべての段落ペアを同じセットに保持するにはどうすればよいですか? たとえば、段落 1 の場合、関連するすべてのペア (1-2、1-3、1-4、1-5...1-500) をテスト セットまたはトレーニング セットに含めたいとします。たとえば、ペアの半分がトレーニング セットにある場合、ランキングは機能しません。これは、テスト セットのランキングにいくつかのペアが欠けているためです...

フォーマット

パラグラフA | パラグラフB | ラベル | 特徴...


パラグラフ 1 | パラグラフ 4 | 1 | ...

パラグラフ 2 | パラグラフ 6 | 1 | ...

パラグラフ 6 | パラグラフ 8 | 0 | ...

パラグラフ 10 | パラグラフ 2 | 1 | ...

私はsklearn train_test_splitを使用しています:

0 投票する
2 に答える
731 参照

python - テスト トレイン スプリット: エラー

どうすれば df を分割できますか :

IM GETTING のようなエラー:

0 投票する
0 に答える
91 参照

python - 異なるサンプルからのトレーニング データのマージにおける問題

トレーニング データの 2 つのファイルがあり、それぞれがトレーニングとテストの分割データとして個別に分割されています。指定されたファイルでトレーニング サンプルを抽出する方法

私は4つのファイルを持っています

  • file1: いくつかの機能
  • file2: ファイル 1 と共通のいくつかの列を持つその他の機能

例による詳細

ファイル 1 列 - タイムスタンプ、イベント、結果、

test 1 は、ファイル 1 から分割されたテスト データです。

ファイル 2 列 - タイムスタンプ、ユーザータイプ、イベント期間、結果、

test2 には、ファイル 2 から分割されたテスト データが含まれています.....

その際、トレーニング データまたはテスト データをマージできませんでした。データの損失 (内部結合) またはあいまいなデータ (外部結合の場合) を報告します。これら2つのデータでロジスティック回帰を実行する必要があります

テスト 1 とテスト 2 は、ファイル 1 とファイル 2 からテスト データとして個別にストリップされたテスト データ セットです。

トレーニング サンプルでロジスティック回帰を実行し、ファイル 3 とファイル 4 でテストする必要があります。この個別の分割が原因で、マージに問題があります。誰かがこの問題を克服できる最善の方法を提案できますか?