私は一連のドキュメントとそれに対応するスコアを持っています。これは、SO の賛成票/反対票の数に非常に似ています。与えられたドキュメントのスコアを予測できるシステムを構築したいと考えています。回帰のためのいくつかの機械学習アプローチと、ドキュメントから有用な特徴を導き出すための自然言語処理手法が役立つ場合があります。
このような問題に対する最先端の方法はありますか? Google Scholar でいくつか検索しましたが、満足のいく結果が見つかりませんでした。
ありがとう。
私は一連のドキュメントとそれに対応するスコアを持っています。これは、SO の賛成票/反対票の数に非常に似ています。与えられたドキュメントのスコアを予測できるシステムを構築したいと考えています。回帰のためのいくつかの機械学習アプローチと、ドキュメントから有用な特徴を導き出すための自然言語処理手法が役立つ場合があります。
このような問題に対する最先端の方法はありますか? Google Scholar でいくつか検索しましたが、満足のいく結果が見つかりませんでした。
ありがとう。
回答の品質や有用性を予測することは、依然として非常に困難です。アルゴリズムは、他の機械学習の問題と変わりません。人々は、標準的な回帰ベースの手法を使用しているだけです。それは本当に多くの特徴抽出に行き着くでしょう。たとえば、reddit や digg などのニュース アグリゲーターの記事の投票数を予測するには、投稿のトピックがトレンドのニュース記事に関するものかどうかを確認する必要があります。トレンドが終わった場合、おそらく多くの票を獲得することはありません。
作業しているドメインでどの機能が役立つかについて、創造的になる必要があります。作成者が使用している言語の複雑さなどを試すことができます。1 文あたりの平均単語数、単語の平均長さ、ドキュメント内の合計単語数などから測定できます。スペル チェッカーを実行してみてください。スペル ミスが多いドキュメントは、反対票を投じられる可能性があります。
Google Scholar で検索できる研究分野がいくつかあります。
また、最近、kaggle.com でこのトピックに関するデータ サイエンス コンテストがいくつか開催されています。通常、ユーザー フォーラムには、これらのことにどのように取り組んだかについての非常に優れた情報があります。これは、自動小論文採点に関するもの です。