0

特定のニュース項目が組織または会社名に割り当てられるニュース分類システムを開発しています。たとえば、「Apple、2012 年 9 月に新しい iPhone を発売」というラベルの付いたニュース項目は、「Apple」ニュースに分類されます。これまでのところ、Apple ニュース、Google ニュース、Microsoft ニュース、Samsung ニュース、Bank of America ニュースなどのトピックで分類器をトレーニングした後、完璧に機能し、単一のトレーニング済みモデルからほぼ 99% 正しく分類されたインスタンスを取得していました。今問題は、「Samsung と Google の Apple に対する準備攻撃」のようなニュースを、「Apple」、「Samsung」、「Google」の 3 つのトピックに分類することです。

ここでの私の質問は、Mahouts 分類を使用して単一のアイテムを複数のクラスに分類する方法です。このスレッドhttp://mail-archives.apache.org/mod_mbox/mahout-user/201206.mbox/%3C20120607223156.GA26283@opus.istwok.net%3Eで同様の質問を見ました。

Ted Dunning は、複数のトピックに対して別のカテゴリを作成するという興味深い回答を提供しましたが、私の場合、その組み合わせは多数あります。ニュースをほぼ 15,000 社に分類する必要があり、現実的に言えば、どのニュースも 15,000 社のいずれかが混在している可能性があります。したがって、別のカテゴリとしての組み合わせの作成は除外されます!. 2 番目の提案は、会社名がどの基本カテゴリにも収束しないため、ここでも適用されない階層でトピックを配置することでした。

15000 のトピックに対して 15000 のモデルがあれば十分ですが、あまり妥当とは言えません!

では、複数のトピックのニュースを分類する正しい方法は何でしょうか?

ありがとう!

4

1 に答える 1

0

データに複数のラベルを付けるという問題に直面している場合は、専用のツールを使用することをお勧めします。現在 mahout は複数のラベル付けをサポートしていません (それを行う方法はいくつかありますが、それらは回避策のようなものです)。データに複数のラベルを付けるためのツールをいくつか紹介します

http://mulan.sourceforge.net/

http://meka.sourceforge.net/

于 2012-08-20T11:32:26.330 に答える