-1

Weka を介してテキストを分類する方法を知っています。テキストのフォルダーを Weka GUI に挿入し、さまざまなアルゴリズムを試して、テキストの 1 つが特定のトピックに対して肯定的/否定的であるかどうかを示すことができます。

ここで、別のものが必要です。ユーザーが単一のテキスト ファイルを挿入したときに、テキストのトピックを伝えるアプリケーションを構築したいと考えています。

Wekaでこれを行う可能性はありますか? 誰かが私にヒントを与えてくれれば、私はとても喜んでいます。

4

2 に答える 2

1

「トピック」とは何を意味しますか?これは非常に広い概念ですが、ほとんどの場合、「科学」、「スポーツ」などの可能性のあるテキスト カテゴリの有限セットであり、これを と呼びC、"ポジティブ/ネガティブ」分類。複数のカテゴリに分類することは特別なことではありません。それでも、カテゴリごとにトレーニング セットが必要になります。

要約すると、バイナリ分類とまったく同じ方法で WEKA を使用できます。より多くのラベルを使用して分類を実行するだけです (カテゴリが相互に排他的である場合、つまり、「科学」と「スポーツ」の両方に関するテキストがない場合)。|C|テキストがカテゴリの任意のサブセットの一部である可能性がある場合 (ドキュメントは多くの場合、いくつかのトピックの「中間」にあるため、より合理的です)、対応する分類器が「はい」と答えたカテゴリのセットで単純に答えます (肯定的)。 )。

これを教師なしの方法で (トレーニング セットなしで) 実行したい場合は、私が知る限り WEKA では実装されていない、ある種のテキスト要約/トピック モデリング手法によって実際にトピックをモデル化する必要がある、はるかに複雑なタスクになります。実際、私の知る限り、このアプローチは「良い」解決策について話すほど成熟していません。これらはむしろ、多くのアプローチとさまざまな結果を伴う研究分野です。

于 2013-10-14T16:38:12.473 に答える