0

私は機械学習の初心者です。テストをしましたが、説明と評価の方法がわかりません。

ケース 1:

まず、データ (データ A、約 8000 ワード) をランダムに 10 個のグループ (a1..a10) に分割します。各グループ内で、データの 90% を使用して ngram モデルを構築します。この ngram モデルは、同じグループの他の 10% のデータでテストされます。結果は 10% 未満の精度です。他の 9 つのグループも同じ方法で実行されます (それぞれモデルを作成し、そのグループの残りの 10% のデータでそれぞれテストします)。すべての結果は約 10% の精度です。(これは 10 分割交差検証ですか?)

ケース 2:

まず、約 8000 語のデータセット全体(データ A) に基づいて ngram モデルを構築します。次に、この A をランダムに 10 個のグループ (a1、a2、a3..a10) に分割します。次に、この ngram を使用して、それぞれ a1、a2..a10 をテストします。モデルはすべてのグループでほぼ 96% の精度であることがわかりました。

そのような状況を説明する方法。前もって感謝します。

4

3 に答える 3

3
  1. はい、10 分割の交差検証です。

  2. このテスト方法には、トレーニング セットに対するテストという共通の欠陥があります。そのため、精度が高くなります。これは非現実的です。実際には、テスト インスタンスは目新しいものであり、以前はシステムに認識されていなかったからです。

N 分割交差検証は、多くの研究で使用されている有効な評価方法です。

于 2012-05-23T20:02:12.297 に答える
2

overfittingのトピックを読む必要があります。

あなたが説明した状況は、ngram モデルが過度に適合しているという印象を与えます。トレーニング データの 96% を「記憶」できます。しかし、適切なサブセットでトレーニングすると、未知のデータの 10%しか予測できません。

于 2012-05-23T20:43:37.693 に答える
0
  1. これは10分割交差検定と呼ばれます
于 2012-05-24T12:20:43.893 に答える