1

分類したいドキュメント(主にPDFとドキュメント)が大量にあるので、特定のタグに従ってそれらを検索できます。これらのタグは、私自身のもの(タグをドキュメントに配置)またはテキストから抽出したもののいずれかです。

これに関連する投稿(Apache Mahoutを使用してデータを分類する)を見たばかりですが、おそらくもっと単純なものがあります。

4

2 に答える 2

3

Mahoutはあなたの問題に対してやり過ぎかもしれませんが、OpenNLPを使用することで、かなり迅速で簡単な解決策を得ることができます。

http://opennlp.sourceforge.net/api/index.html

具体的には、opennlp.tools.doccatパッケージを確認してください。基本的に、必要なカテゴリごとに、アイテムの小さな(っぽい)セットを調べて手動でタグ付けする必要があります。それらが本当に異なる場合は、小さなサンプルサイズで逃げることができます。

DocumentCategorizerME.train()静的関数を使用して、ドキュメントのコレクションをトレーニングできます。各ドキュメントには、トレーニングにカテゴリタグとテキストブロックが必要です。次に、トレーニングされたモデルを使用してDocumentCategorizerMEを初期化し、残りのすべてのドキュメントの分類を開始できます。

これを行うと、(私が思うに)モデルをファイルに書き込むことができるので、二度とそれを行う必要はありません。

于 2011-04-08T15:22:51.193 に答える
0

キーワードの抽出とウェブページの分類に関するこの投稿は関連しており、役立つ場合があります。あなたの例では、キーワード抽出部分の代わりにタグを使用できるように聞こえます(ただし、両方を組み合わせて使用​​することもできます)。 Wekaは使いやすいので、ぜひ見てみることをお勧めします。

于 2012-06-04T23:03:18.300 に答える