入力テキストを一連の機能として使用するのではなく、テキスト内の URL の数、異なる音声部分を表す単語の数、単語の平均長など、いくつかの派生パラメーターを使用するカスタム テキスト分類ソリューションを開発する必要があります (入力ドキュメントを指定して一連の機能を導出できます)。
もともと私は OpenNLP を使用して (DocumentCategorizerME を介して) 分類を行うことを考えていましたが、可能な機能としてテキスト文字列のみを使用し、目立たない機能 (平均語長を表す浮動小数点数など) を使用することはできません。 )。
質問は次のとおりです。
- 何か不足していますか?分類のためにOpenNLPを整数または浮動小数点機能で使用するように適応させることは実際に可能ですか
- いいえの場合、推奨されるライブラリ/ツールキットは何ですか?