4

次の状況でベイジアン分類器をトレーニングして使用したいと思います。

  • 半構造化データ - 基本的に XML スキーマ
  • 情報は複数のプレーン テキスト フィールドに含まれています
  • 一部のフィールド/スキーマの一部は、任意の回数繰り返すことができます

分類自体はかなり単純です。基本的には、ドキュメントが特定のカテゴリに含まれる確率が必要です。

設計上の制約:

  • ソリューションは、オープン ソースであるか、別のロイヤリティ フリー ライセンスで利用可能である必要があります
  • 将来の使用のために分類子を保存/ロードできる必要があります
  • このライブラリを大規模な Java ベースのアプリケーションに埋め込むことが可能でなければなりません (つまり、Java/JVM ライブラリで動作する必要があります)。

この要件を満たすライブラリ/ツールはありますか?

4

1 に答える 1

1

分類子の準備が整っているかどうかはわかりませんが、いくつかのドロワー プロジェクトでApache のUIMAフレームワークを使用しました。UIMA は「単なる」フレームワークですが、いくつかのロジックが付属しています。いくつかの強力なグーグルは、 UIMA を使用したベイジアン分類器の例を思いつきました。

実行時に構成を変更するメカニズムがありますが、「分類子の保存と読み込み」の意味についても少しわかりません。これは、実行時にロード (およびアンロード) したいバイナリ分類子の配列があるということですか、それとも、ロード/アンロードしたい別のモデルがあるということですか?

他の質問への回答は次のとおりです。

  • はい、UIMA はオープン ソースであり、ASLv2 でリリースされています
  • はい、UIMA をライブラリとしてアプリケーションに埋め込むことができます。
于 2012-09-12T20:28:12.463 に答える