1

特定の短い単語の文字列に対して分類子を手動で実装し、それぞれの「良さ」ランクを取得したいと考えています。私は、基本的にスパムフィルターのような単純なベイジアン分類器を作成し、以前の「良い」/「悪い」評価に基づいて文字列をスコア付けしました。ここまでは順調ですね。さて、解決したい問題が2つあります(物事を正しく理解することによって)...

問題は、「クックブック」の種類ではなく、より体系的でありながら、理想的には大学の統計コースよりも短い、以下の優れた入門資料となるものは何かです:)本よりも短い記事のセット、または優れた本. 理想的にはプログラマーを対象としています。

問題は次のとおりです。まず、私のシステムには、実際には「良い」、「悪い」、「中立」の 3 種類のユーザー フィードバックがあります。ほとんどのアイテムはニュートラルで、現時点ではランキングに含めていません。これらがどのように適切に処理されているのか疑問に思っています(アイテムごとに1つの「良い確率」を取得する必要があるため、良い確率と悪い確率を別々に計算すると、それらを組み合わせる落とし穴/適切な方法はありますか)。次に、分類子から単純な部分を削除したい (つまり、単語間の関係を考慮に入れる) ため、別の分類子が適切である可能性があります。または、すべてのペア、トリプルなどを追加することもできます。文字列が短いため、単語を機能として使用します-これはハックのように感じますが、やはり私のCS /数学のバックグラウンドは、これが有効な手法であるかどうかを判断するには十分に錆びているか不十分です。

4

0 に答える 0