現在、データセットで DynamicLMClassifier をトレーニングし、テキストをカテゴリに分類しています。分類子が特定の単語をより重視するように機能を追加するにはどうすればよいですか。または、ngram ではなく段落に基づいて分類する方法は?
featureextractor があることに気付きましたが、それは引数を取っていないようです。
現在、データセットで DynamicLMClassifier をトレーニングし、テキストをカテゴリに分類しています。分類子が特定の単語をより重視するように機能を追加するにはどうすればよいですか。または、ngram ではなく段落に基づいて分類する方法は?
featureextractor があることに気付きましたが、それは引数を取っていないようです。
これをコメントとして行いますが、まだ特権がありません。
DynamicLMClassifier は任意の機能を許可しません。これを行う 1 つが LogisticRegression 分類子ですが、使用するのはより複雑です。開始するのに適した場所は、次のチュートリアルです。
http://alias-i.com/lingpipe/demos/tutorial/logistic-regression/read-me.html
ngram の代わりに段落に基づいて分類する方法に関する 2 番目の質問は、少し不明確です。段落全体を単一の機能として使用すると、非常にまばらなデータが作成される可能性があります。
ブレック