これは、Tf-IDF(項頻度-逆ドキュメント頻度)を使用したngramによる線形回帰に関する質問です。これを行うために、線形回帰にnumpyスパース行列とsklearnを使用しています。
ユニグラムを使用すると、53のケースと6000を超える機能があります。予測は、LeaveOneOutを使用した相互検証に基づいています。
ユニグラムスコアのみのtf-idfスパース行列を作成すると、ユニグラム+バイグラムスコアのtf-idfスパース行列を作成する場合よりもわずかに良い予測が得られます。行列に追加する列(トリグラム、クアッドグラム、クイントグラムなどの列)が多いほど、回帰予測の精度は低くなります。
これは一般的ですか?これはどのように可能ですか?機能が多ければ多いほど良いと思いました。