あなたの問題は、回帰(リンク)のカテゴリに分類されます。機械学習の用語では、機能のコレクション(リンク) (質問に記載) があり、それらの機能を考慮して予測するスコア値があります。
Ted Hopp が提案したのは、基本的には線形予測関数(リンク)です。これは、シナリオにとって単純すぎるモデルである可能性があります。
問題にロジスティック回帰(リンク)を使用することを検討してください。これを使用する方法は次のとおりです。
1. モデル学習データセットを作成する
4000 のセットからいくつかのブログ投稿をランダムに選択します。これは、これらのブログ投稿を手でm
快適に閲覧できるように十分に小さいセットである必要があります。m
各ブログ投稿について、 からまでm
の数字で「良い」点を採点してください。役立つ場合は、値に「星」を使用していると考えることができます。0
1
0, 1, 2, 3, 4
0, 0.25, 0.5, 0.75, 1
m
これで、それぞれが一連の機能とスコアを持つブログ投稿ができました。
オプションで機能セットを拡張して、派生機能を含めることができます。たとえば、「賛成票数」、「受信したコメント」、「共有数」、「フォロワー数」の対数を含めることができます。 「現在」と「作成時間」の間の時間数の対数。
2. モデルを学習する
勾配降下法を使用して、モデル学習データセットに適合するロジスティック回帰モデルを見つけます。モデル学習プロセスでそれぞれのステップを実行できるように、データセットをtraining、validation、およびtestセットに分割する必要があります。
このセクションについては、これ以上詳しく説明しません。インターネットには詳細があふれていて、既製のプロセスだからです。
ウィキペディアのリンク:
3. モデルを適用する
ロジスティック回帰モデルを学習したので、それを適用して、新しいブログ投稿の「良い」スコアを予測できます。単純に一連の機能 (および派生機能) を計算し、モデルを使用してそれらの機能をスコアにマッピングします。
繰り返しになりますが、インターネットにはこのセクションの詳細がたくさんありますが、これは既定のプロセスです。
ご不明な点がございましたら、お気軽にお問い合わせください。
機械学習についてさらに学びたい場合は、Coursera.orgで無料のオンライン スタンフォード機械学習コースを受講することを検討してください。(私はスタンフォード大学やコーセラと提携していません。)