私は自然言語処理(NLTK を使用) に関する最終年度のプロジェクトを計画しており、関心のある分野はFacebook などのソーシャル メディア Web サイトからのコメントの要約です。たとえば、私は次のようなことをしようとしています:
画像内のランダムな Facebook コメント :
- わお!美しい。
- 本当に美しく見えます。
- とてもきれいで、素敵な写真です。
これで、これらのコメントはすべて (テンプレート ベースのコメント要約手法を使用して) 次のようにマップされます。
3 人がこの写真を「美しい」と評価しています。
コメントでは「きれい」という言葉よりも「美しい」という言葉が一般的に使用されるため、出力は「美しい」という言葉で構成されます(また、美しいときれいは同義語であるという事実もあります)。このタスクを達成するために、次を使用します。キーワード頻度やキーワード スコアの追跡などのアプローチ(このシナリオでは、「美しい」と「きれい」のスコアは非常に近い)。 これが最善の方法ですか?
これまでの私の研究では、次の論文を思いつくことができましたが、この種のコメントの要約に対処した論文はありません。
同様の問題に対処するこの分野の他の論文は何ですか?
これとは別に、要約タスクごとにサマライザーを改善したいと考えています。この点で機械学習をどのように適用すればよいですか?