私は機械学習の初心者です。テストをしましたが、説明と評価の方法がわかりません。
ケース 1:
まず、データ (データ A、約 8000 ワード) をランダムに 10 個のグループ (a1..a10) に分割します。各グループ内で、データの 90% を使用して ngram モデルを構築します。この ngram モデルは、同じグループの他の 10% のデータでテストされます。結果は 10% 未満の精度です。他の 9 つのグループも同じ方法で実行されます (それぞれモデルを作成し、そのグループの残りの 10% のデータでそれぞれテストします)。すべての結果は約 10% の精度です。(これは 10 分割交差検証ですか?)
ケース 2:
まず、約 8000 語のデータセット全体(データ A) に基づいて ngram モデルを構築します。次に、この A をランダムに 10 個のグループ (a1、a2、a3..a10) に分割します。次に、この ngram を使用して、それぞれ a1、a2..a10 をテストします。モデルはすべてのグループでほぼ 96% の精度であることがわかりました。
そのような状況を説明する方法。前もって感謝します。