algorithm - タグでドキュメントを分類する

Question

分類したいドキュメント（主にPDFとドキュメント）が大量にあるので、特定のタグに従ってそれらを検索できます。これらのタグは、私自身のもの（タグをドキュメントに配置）またはテキストから抽出したもののいずれかです。

これに関連する投稿（Apache Mahoutを使用してデータを分類する）を見たばかりですが、おそらくもっと単純なものがあります。

score 3 · Accepted Answer

Mahoutはあなたの問題に対してやり過ぎかもしれませんが、OpenNLPを使用することで、かなり迅速で簡単な解決策を得ることができます。

http://opennlp.sourceforge.net/api/index.html

具体的には、opennlp.tools.doccatパッケージを確認してください。基本的に、必要なカテゴリごとに、アイテムの小さな（っぽい）セットを調べて手動でタグ付けする必要があります。それらが本当に異なる場合は、小さなサンプルサイズで逃げることができます。

DocumentCategorizerME.train（）静的関数を使用して、ドキュメントのコレクションをトレーニングできます。各ドキュメントには、トレーニングにカテゴリタグとテキストブロックが必要です。次に、トレーニングされたモデルを使用してDocumentCategorizerMEを初期化し、残りのすべてのドキュメントの分類を開始できます。

これを行うと、（私が思うに）モデルをファイルに書き込むことができるので、二度とそれを行う必要はありません。

score 0 · Accepted Answer

キーワードの抽出とウェブページの分類に関するこの投稿は関連しており、役立つ場合があります。あなたの例では、キーワード抽出部分の代わりにタグを使用できるように聞こえます（ただし、両方を組み合わせて使用することもできます）。 Wekaは使いやすいので、ぜひ見てみることをお勧めします。

algorithm - タグでドキュメントを分類する

2 に答える 2

Related

Reference