ドキュメント分類ドメインで言えば、1000 個のインスタンスのデータセットがあるが、インスタンス (ドキュメント) の内容がかなり小さい場合です。また、たとえば 200 個のインスタンスの別のデータセットがありますが、個々のインスタンスにはより豊富なコンテンツがあります。IDF が私の関心事ではない場合、インスタンスの数はトレーニングで本当に重要になりますか? 分類アルゴリズムはそれを考慮に入れていますか?
ありがとう。サム
ドキュメント分類ドメインで言えば、1000 個のインスタンスのデータセットがあるが、インスタンス (ドキュメント) の内容がかなり小さい場合です。また、たとえば 200 個のインスタンスの別のデータセットがありますが、個々のインスタンスにはより豊富なコンテンツがあります。IDF が私の関心事ではない場合、インスタンスの数はトレーニングで本当に重要になりますか? 分類アルゴリズムはそれを考慮に入れていますか?
ありがとう。サム
これを一般的な機械学習の問題として提起することができます。トレーニングデータのサイズがどのように重要であるかを理解するのに役立つ最も単純な問題は、カーブフィッティングです。
分類器または近似モデルの不確実性とバイアスは、サンプルサイズの関数です。サンプルサイズが小さいことはよく知られている問題であり、トレーニングサンプルをさらに収集することで回避しようとすることがよくあります。これは、非線形分類器の不確実性推定がモデルの線形近似によって推定されるためです。そして、この推定は、中心極限定理の主な条件として多数のサンプルが利用できる場合にのみ正確です。
外れ値の割合も、トレーニングサンプルサイズを決定する際に考慮する必要がある重要な要素です。サンプルサイズが大きいほど外れ値の割合が高いことを意味する場合は、サンプルサイズを制限する必要があります。
ドキュメントサイズは、実際にはフィーチャスペースサイズの間接的な指標です。たとえば、各ドキュメントから10個の機能しかない場合は、10次元空間でドキュメントを分離/分類しようとしています。各ドキュメントに100個のフィーチャがある場合、100次元空間でも同じことが起こります。文書を高次元で区切る線を引く方が見やすいと思います。
ドキュメントサイズとサンプルサイズの両方について、経験則は可能な限り高くなりますが、実際にはこれは不可能です。また、たとえば、分類器の不確実性関数を推定すると、サンプルサイズがそれよりも大きいと、不確実性とバイアスが実質的に減少しないというしきい値が見つかります。経験的には、モンテカルロシミュレーションによっていくつかの問題のこのしきい値を見つけることもできます。
ほとんどのエンジニアは不確実性を推定することを気にせず、それはしばしば彼らが実装するメソッドの次善の振る舞いにつながります。これはトイプロブレムには問題ありませんが、実際の問題では、ほとんどのシステムで推定と計算の不確実性を考慮することが不可欠です。それがあなたの質問にある程度答えることを願っています。