embedding - rasa nlu データの不均衡問題に対処するには？

翻译自：https://stackoverflow.com/questions/58462610 2019-10-19T10:12:54.477

368 次

今、私は識別する 12 の意図を持っています。，しかし、各意図のデータの量は一貫していません。，会議の設定のように、これらの意図を思い出させると、データの量は数千になります。しかし、挨拶のように、そのような意図をありがとう、非常に少数です。データサンプルは、おそらく数十個です。

このデータの不均衡の問題にどのように対処すればよいですか?

私の config.yml ファイルの内容は次のとおりです。

language: en

pipeline:
  - name: "WhitespaceTokenizer"
  - name: "RegexFeaturizer"
  - name: "CountVectorsFeaturizer"
    analyzer: char_wb
    min_ngram: 2
    max_ngram: 5
    stop_words: "english"
  - name: "CRFEntityExtractor"
  - name: "extractor.regex.RegexEntityExtractor"
  - name: "EmbeddingIntentClassifier"
    epochs: 100
    num_neg: 2
  - name: "DucklingHTTPExtractor"
    url: "http://localhost:8000"
    dimensions: ["time", "duration", "phone-number", "distance"]

policies:
  - name: MemoizationPolicy
  - name: EmbeddingPolicy
    epochs: 20
  - name: FormPolicy
  - name: MappingPolicy
  - name: FallbackPolicy
    fallback_action_name: "action_default_fallback"

embedding - rasa nlu データの不均衡問題に対処するには？

2 に答える 2

Related

Reference