この 2 つの概念を頭の中で区別するのに苦労しています。
BLEUなどの評価メトリクスを使用して、(機械翻訳のように) 参照に対する特定の入力の品質を測定できることを私は知っています。しかし、このスコアを利用して、文を 2 つのカテゴリに分類できるでしょうか? たとえば、特定の評価メトリクス スコアが 0.50 を超える文には「はい」が与えられ、0.50 未満のすべての文には「いいえ」が与えられます。
また、これは機械学習アルゴリズムで使用される機能に関連している可能性がありますか? たとえば、「過去に」というフレーズは、データの可能な特徴であり、入力をこの特徴を持つかどうかに分類するために使用できます。