分類したいドキュメント(主にPDFとドキュメント)が大量にあるので、特定のタグに従ってそれらを検索できます。これらのタグは、私自身のもの(タグをドキュメントに配置)またはテキストから抽出したもののいずれかです。
これに関連する投稿(Apache Mahoutを使用してデータを分類する)を見たばかりですが、おそらくもっと単純なものがあります。
分類したいドキュメント(主にPDFとドキュメント)が大量にあるので、特定のタグに従ってそれらを検索できます。これらのタグは、私自身のもの(タグをドキュメントに配置)またはテキストから抽出したもののいずれかです。
これに関連する投稿(Apache Mahoutを使用してデータを分類する)を見たばかりですが、おそらくもっと単純なものがあります。
Mahoutはあなたの問題に対してやり過ぎかもしれませんが、OpenNLPを使用することで、かなり迅速で簡単な解決策を得ることができます。
http://opennlp.sourceforge.net/api/index.html
具体的には、opennlp.tools.doccatパッケージを確認してください。基本的に、必要なカテゴリごとに、アイテムの小さな(っぽい)セットを調べて手動でタグ付けする必要があります。それらが本当に異なる場合は、小さなサンプルサイズで逃げることができます。
DocumentCategorizerME.train()静的関数を使用して、ドキュメントのコレクションをトレーニングできます。各ドキュメントには、トレーニングにカテゴリタグとテキストブロックが必要です。次に、トレーニングされたモデルを使用してDocumentCategorizerMEを初期化し、残りのすべてのドキュメントの分類を開始できます。
これを行うと、(私が思うに)モデルをファイルに書き込むことができるので、二度とそれを行う必要はありません。
キーワードの抽出とウェブページの分類に関するこの投稿は関連しており、役立つ場合があります。あなたの例では、キーワード抽出部分の代わりにタグを使用できるように聞こえます(ただし、両方を組み合わせて使用することもできます)。 Wekaは使いやすいので、ぜひ見てみることをお勧めします。