関連性フィードバック用のRocchio アルゴリズムを機能させようとしています。質問があり、ポジティブとネガティブのマークが付けられたドキュメントがいくつかあります。たとえば、60 のポジティブと 337 のネガティブがあります。このデータセットの一部を使用してモデルをトレーニングし (この場合はクエリを調整)、他の部分でテストしたいと考えています。しかし、この種の不均衡なデータセットを使用すると、トレーニングセットに取り込めるネガティブとポジティブの数がわかりません。
もう 1 つの問題は、テスト データセットのポジティブ/ネガティブの比率に応じて、誤解を招く精度、再現率、および F1 スコアの結果が得られることです。テスト データセットに 49 個の陽性と 17 個の陰性があると、精度 = 0.742、再現率 = 1.000、F1 = 0.852、TP = 49、FP = 17、TN = 0、FN = 0 の数が得られます。
他のクエリの正/負の比率の分布は、モデルにどの比率を選択するかについてのヒントを与えてくれません。
だから私があなたに求めているのは、不均衡なデータセットを使って正しい結果を得るためのアドバイスです。
前もって感謝します。