プライバシーポリシーを分類するためにRubyClassifierライブラリを使用しています。私は、このライブラリに組み込まれている単純な一言一句のアプローチでは不十分であるという結論に達しました。分類の精度を上げるために、個々の単語に加えて、n-gramで分類器をトレーニングしたいと思います。
関連するn-gramを取得する(そして句読点を適切に処理する)ためにドキュメントを前処理するためのライブラリがそこにあるかどうか疑問に思いました。1つの考えは、ドキュメントを前処理して、次のように疑似ngramをRuby分類子にフィードできるというものでした。
wordone_wordtwo_wordthree
あるいは、これを行うためのより良い方法があるかもしれません。たとえば、getgoからngramベースの単純ベイズ分類が組み込まれているライブラリなどです。ここでは、Ruby以外の言語を使用しても問題ありません(必要に応じてPythonが適しているようです)。