0

私は疑問を持っています。分類子がトレーニング データから学習し、テスト データの分割をテストするクロス検証と分割の概念を理解しました。

最初に「トレーニングデータを使用」で分類を実行し、次に分類タブで「提供されたテストセット」オプションをフォローアップして再度実行すると、同じことが起こりますか。

ここで分類タブでより明確にするために、私は2回実行しています...最初に前処理タブでアップロードされたトレーニングデータセットで実行し、次に分類タブの「提供されたテストセット」オプトインでアップロードされたテストセットで実行しました。テストデータを実行している間、モデルは以前に行われたトレーニングを使用しますか?

単純ベイズ分類器を使用しました。また、すべての分類器がトレーニングデータから学習するのか、それともニューラルネットワークのような分類器だけが学習するのか、意思決定ツリーが行うのか疑問があります。

4

1 に答える 1

2

「分類タブ」で説明したオプションを使用すると、構築されたモデルを評価する方法を選択できます。分類タブで「開始」を押すたびに、新しい分類器が構築されます。リストしたオプションの場合、この分類子は [前処理] タブの現在のデータセット全体を使用します。テスト データセットを提供するか、トレーニング データを使用するかに関係なく、同じ分類子が構築されます。Weka は、少なくともあなたが説明した方法では、新しい分類器を構築するときに、以前に構築された分類器からの情報を使用しません。

2 つのテスト オプションの違いは次のとおりです。

  1. 「トレーニング データを使用する」は、構築された分類器を使用してトレーニング インスタンスを予測します。このオプションは、通常、分類器の将来のパフォーマンスについて過度に楽観的な見積もりを提供します。

  2. 「付属のテスト セット」は、独立したテスト セットを使用します。このテスト セットが公正な方法で構築されていることを考えると、分類器の将来のパフォーマンスについて偏りのない推定値が得られるはずです。

最後の質問に答えるために、ほとんどの分類器はトレーニング データからモデルを誘導しようとします。それは通常、学習と見なされます。ただし、IBk などの一部の分類子は、モデルを誘導せず、トレーニング データ自体を使用して将来の予測を行いますこれらはかなり細かい点であり、すべてのWeka 分類子がトレーニング データに基づいて予測を行うと言うのが最善かもしれません。

于 2013-10-05T16:35:02.673 に答える