java - Java テキスト分類の問題

Question

私はBooksオブジェクトのセットを持っています.Bookクラスは次のように定義されています:

Class Book{

String title;
ArrayList<tags> taglist;

}

titleは本のタイトルです。例: Javascript for dummies。

taglistは、この例のタグのリストです: Javascript、jquery、「web dev」、..

私が言ったように、IT、生物学、歴史など、さまざまなことについて話している本のセットがあります...各本には、タイトルとそれを説明するタグのセットがあります..

これらの本を、トピックごとに別のセットに自動的に分類する必要があります。例:

ITブックス：

歴史書：

生物学の本：

そのような問題に適用する分類アルゴリズム/方法を知っていますか?

解決策は、外部 API を使用してテキストのカテゴリを定義することですが、ここでの問題は、書籍の言語がフランス語、スペイン語、英語など異なることです。

score 29 · Accepted Answer

これは、かなり単純なキーワードベースの分類タスクのように見えます。Java を使用しているため、これを検討するのに適したパッケージはClassifier4J、Weka、またはLucene Mahoutです。

Classifier4J

Classifier4J は、単純ベイズとベクトル空間モデルを使用した分類をサポートしています。

単純ベイズ分類器を使用したトレーニングとスコアリングに関するこのソースコードスニペットに見られるように、このパッケージはかなり使いやすいものです。また、リベラルなApache Software Licenseの下で配布されています。

ウェカ

Weka は、データマイニング用の非常に人気のあるツールです。それを使用する利点は、単純ベイズ、決定木、サポートベクターマシン、k 最近傍点、ロジスティック回帰、さらにはルールセットベースの学習者。

Weka を使用したテキストの分類に関するチュートリアルは、こちらにあります。

ただし、Weka はGPLの下で配布されています。配布したいクローズドソースソフトウェアには使用できません。ただし、それを使用して Web サービスをサポートすることはできます。

ルセン・マハウト

Mahout は、非常に大規模なデータセットで機械学習を行うために設計されています。これはApache Hadoopの上に構築されており、ナイーブベイズを使用した教師付き分類をサポートしています。

テキスト分類に Mahout を使用する方法を説明したチュートリアルがここにあります。

Classifier4J と同様に、Mahout はリベラルなApache Software Licenseの下で配布されます。

score 1 · Accepted Answer

このような単純なものは必要ありませんか?

Map<Tag, ArrayList<Book>> m = {};
for (Book b : books) {
    for (tag t : b.taglist) {
        m.get(t).add(b);
    }
}

今m.get("IT")はすべての IT 書籍などを返します...

確かにいくつかの本は複数のカテゴリに表示されますが、それは現実でも起こります...

score 1 · Accepted Answer

では、本のコレクションを保持するタグのマップを作成しようとしていますか?

編集：

カテゴリの分類を適用するためにベクトル空間モデルを調べたいと思われるかもしれません。

LuceneまたはClassifier4jのいずれかが、このためのフレームワークを提供します。

score -1 · Accepted Answer

Soundex や Levenshtein などのファジーマッチングアルゴリズムを調べてみてください。

4 に答える 4