私たちが知っているグラウンド トゥルースは、NLC または R&R を再トレーニングするために使用されます。
グラウンド トゥルースは、質問レベルのトレーニング データです。
例えば
「今日の気温は?,気温」
「今日はどのくらい暑いですか?」という質問。したがって、「温度」クラスに分類されます。
アプリケーションが起動すると、実際のユーザーからの質問が届きます。いくつかは同じです (つまり、実際のユーザーからの質問はグラウンド トゥルースの質問と同じです)、いくつかは類似した用語で、いくつかは新しい質問です。アプリケーションには、クラス (NLC の場合) または回答 (R&R の場合) が関連しているかどうかを知るためのフィードバック ループがあると仮定します。
About the new questions, the approach seems to just add the them to the ground truth, which is then used to re-train the NLC/R&R?
For the questions with similar terms, do we just add them like the new questions, or do we just ignore them, given that similar terms can also be scored well even similar terms are not used to train the classifier?
In the case of the same questions, there seems nothing to do on the ground truth for NLC, however, to the R&R, are we just increase or decrease 1 for the relevance label in the ground truth?
ここでの主な質問は、要するに、NLC と R&R の再トレーニング アプローチとは何かということです...