2

チャット テキストを分類するユース ケースがあります。Apache OpenNLP で DocumentCategorizer を使用してチャットを分類したいと考えています。しかし、そのためには、チャットが既に分類されているはずのトレーニング データが必要です。トレーニング データとテスト データを準備するために、何百ものチャットを手動で分類する必要がありますか? 他に何ができますか?チャット カテゴリは、サービス関連の問題になる予定です。このカテゴリのリストは、ドメイン固有のものになります。このデータの提供者は、分類されたチャット データを私に提供する必要がありますか? 前もって感謝します。

4

2 に答える 2

0

クラスタリングを使用すると、テキストを分類してその中のトピックを識別できますが、教師なしの方法では、分類のパフォーマンスを制御する際の柔軟性が低下することがよくありますが、ラベル付けされたデータがない場合は、依然として最適なツールです。

ただし、最近のゼロ ショットおよび少数ショット学習の進歩により、ほとんど (100 ~ 200 のトレーニング データ) またはまったくトレーニング データを使用せずに分類器を構築できるようになりました。分類子は、教師付き分類子のすべての利点を引き続き保持し、カテゴリをすべて制御できます。

私はそのようなシステムを 1 つ構築しました。システムの動作を確認するために、独自のカテゴリとデータでデモを試すことができます。

その他のリソース:

  1. https://www.quora.com/Whats-the-difference-between-one-shot-learning-and-zero-shot-learning
  2. https://arxiv.org/abs/1710.10280
于 2017-12-25T13:44:51.287 に答える