私たちはテキスト検索ソリューションを構築しており、新しいドキュメント タイプを追加するたびにシステムの適合率と再現率を測定する方法が必要です。ここの投稿のいくつかを読むと、機械学習ベースのソリューションが進むべき道のように思えます. 専門家はこれについてコメントできますか?次に、チームに機械学習担当者を追加することを検討します。
1 に答える
0
F1 スコアを取得する唯一の方法は、正しいクラス、評価クエリによって取得されるすべてのサンプルのランクに関する知識を必要とし、それらの評価クエリも必要です。
機械学習では、これらのサンプルやクエリを提供するために大量の手作業が必要になります。大きすぎて、いつでも節約できません。
この評価のもう 1 つの悪い側面は、学習関連の固有エラーによるものです。これは、検索エンジンのインデックスのサイズが大きくなり、必要な例の数が増えることに伴います。良い評価を得ることはありません。
検索エンジンの評価に機械学習は必要ありません。大きく信頼できるものになるまでに、テスト クエリとサンプルを手動で作成します。
システムで機械学習が本当に必要な場合は、クエリの前処理を検討する必要があります。別の方法でクエリに関するいくつかのメタ情報を取得すること (SVN と言いますが、それはなぜでしょうか?) は、一般的にパフォーマンスに優れており、結果は変わりませんでしたが、同じサンプルをエンドツーエンドの評価に使用できます。 . それは私が数年前に行ったことですが、自然言語分析の単純なベイ分類子を使用しています。
于 2013-07-08T19:38:46.463 に答える