次の状況でベイジアン分類器をトレーニングして使用したいと思います。
- 半構造化データ - 基本的に XML スキーマ
- 情報は複数のプレーン テキスト フィールドに含まれています
- 一部のフィールド/スキーマの一部は、任意の回数繰り返すことができます
分類自体はかなり単純です。基本的には、ドキュメントが特定のカテゴリに含まれる確率が必要です。
設計上の制約:
- ソリューションは、オープン ソースであるか、別のロイヤリティ フリー ライセンスで利用可能である必要があります
- 将来の使用のために分類子を保存/ロードできる必要があります
- このライブラリを大規模な Java ベースのアプリケーションに埋め込むことが可能でなければなりません (つまり、Java/JVM ライブラリで動作する必要があります)。
この要件を満たすライブラリ/ツールはありますか?