私のチャットアプリを改善しようとしています:
私のドメインからの以前の (前処理された) チャット インタラクションを使用して、特定のチャット コンテキストに対してユーザーに 5 つの可能な発話を提供するツールを構築しました。たとえば、次のようになります。
Raw : 「やあ、ジョン。」
コンテキスト: こんにちは [[USER_NAME]]
発話: [こんにちは、こんにちは、お元気ですか、こんにちは、またこんにちは]
もちろん、結果は常に関連しているわけではありません。たとえば、次のようになります。
Raw : 「こんにちはジョン。お元気ですか? 元気です。オフィスにいらっしゃいますか?」
コンテキスト: こんにちは [[USER_NAME]] お元気ですか オフィスにいらっしゃいますか
発話: [はい、いいえ、こんにちは、はい、お元気ですか]
私はTF/IDF 類似性モデルと次のような構造のインデックスでElasticsearchを使用しています。
{
"_index": "engagements",
"_type": "context",
"_id": "48",
"_score": 1,
"_source": {
"context": "hi [[USER_NAME]] how are you i am fine are you in the office",
"utterance": "Yes I am"
}
}
問題:「こんにちは [[USER_NAME]] お元気ですか、オフィスにいらっしゃいますか」という文脈では、「はい、私はいます」という発話が関連していることは確かですが、「はい」、「いいえ」も関連しています。似たような文脈で登場したからです。
出発点として、この優れたビデオを使用しようとしています
Q: (生データから) 知っているのが 1 つの真の発話だけである場合、適合率と再現率を測定するにはどうすればよいですか?