elasticsearch - 生データに情報が欠落している場合の適合率と再現率の測定

Question

私のチャットアプリを改善しようとしています:

私のドメインからの以前の (前処理された) チャットインタラクションを使用して、特定のチャットコンテキストに対してユーザーに 5 つの可能な発話を提供するツールを構築しました。たとえば、次のようになります。

Raw : 「やあ、ジョン。」

コンテキスト: こんにちは [[USER_NAME]]
発話: [こんにちは、こんにちは、お元気ですか、こんにちは、またこんにちは]

もちろん、結果は常に関連しているわけではありません。たとえば、次のようになります。

Raw : 「こんにちはジョン。お元気ですか? 元気です。オフィスにいらっしゃいますか?」

コンテキスト: こんにちは [[USER_NAME]] お元気ですかオフィスにいらっしゃいますか
発話: [はい、いいえ、こんにちは、はい、お元気ですか]

私はTF/IDF 類似性モデルと次のような構造のインデックスでElasticsearchを使用しています。

{
  "_index": "engagements",
  "_type": "context",
  "_id": "48",
  "_score": 1,
  "_source": {
    "context": "hi [[USER_NAME]] how are you i am fine are you in the office",
    "utterance": "Yes I am"
  }
}

問題:「こんにちは [[USER_NAME]] お元気ですか、オフィスにいらっしゃいますか」という文脈では、「はい、私はいます」という発話が関連していることは確かですが、「はい」、「いいえ」も関連しています。似たような文脈で登場したからです。

出発点として、この優れたビデオを使用しようとしています

Q: (生データから) 知っているのが 1 つの真の発話だけである場合、適合率と再現率を測定するにはどうすればよいですか?

elasticsearch - 生データに情報が欠落している場合の適合率と再現率の測定

1 に答える 1

Related

Reference