私はデータマイニング(テキストクラスタリング)の研究分野の初心者であり、データセットのトレーニングとテストに関していくつか質問があります。
- そのクラスタリングには、データセットのトレーニングとテストが必要ですか?
- なぜトレーニングデータセットとテストデータセットに分ける必要があるのですか?
ルーキーの質問で申し訳ありませんが、このグループの専門家が私を助けてくれることを願っています。
私はデータマイニング(テキストクラスタリング)の研究分野の初心者であり、データセットのトレーニングとテストに関していくつか質問があります。
ルーキーの質問で申し訳ありませんが、このグループの専門家が私を助けてくれることを願っています。
あなたの質問はクラスタリングに関するものなので:
クラスター分析では、通常、トレーニングまたはテストデータの分割はありません。
ラベルがないときにクラスター分析を行うため、「トレーニング」できません。
トレーニングは機械学習の概念であり、過剰適合を回避するためにトレインテスト分割が使用されます。
ただし、ラベルを学習していない場合は、過剰適合することはできません。
適切に使用されるクラスター分析は、知識発見方法です。すでにラベル付けされているものを再発見するのではなく、データ内の新しい構造を発見したい。
データをトレーニングするには、テストデータと類似しているが同一ではない関連データのセットが必要です。たとえば、データの0.7がトレーニングで、残りがテストであるデータを分割できます。これにより、アルゴリズムが何を探すべきかを把握できるようになります。残りのデータ0.3は、アルゴリズムがそれ自体をテストできるようにするための別個の情報セット(うまくいけば)であるため、テストに使用できます。
なぜそれを分割するのですか?データAでデータをトレーニングしてから、データAでアルゴリズムをテストすると、アルゴリズムはすべての情報を正しく識別できるようになります。これは、アルゴリズムがトレーニングされたものだからです。
たとえば、足し算を学習するときに合計3 + 4、4 + 5、6 + 9が与えられた場合、これを正しく解くと、同じ合計を使用して足し算の知識をテストするのは冗長になります。
さらに詳しい情報:
http://en.wikipedia.org/wiki/Natural_language_processing
お役に立てれば。