このための NLP/ML 手法があるかどうか疑問に思っていました。
一連の文が与えられたとします。
- 映画を見ました。
- 映画は素晴らしいと聞いたので、見なければなりません。
- 映画のチケットを手に入れました。
- 私は映画にいます。
これらの文のそれぞれに、映画を「実際に」見た確率を割り当てる必要がある場合は、1、4、3、2 の降順で割り当てます。
いくつかの分類子またはルールを使用して、これを自動的に行う方法はありますか? どんな紙/リンクも役に立ちます。
このための NLP/ML 手法があるかどうか疑問に思っていました。
一連の文が与えられたとします。
これらの文のそれぞれに、映画を「実際に」見た確率を割り当てる必要がある場合は、1、4、3、2 の降順で割り当てます。
いくつかの分類子またはルールを使用して、これを自動的に行う方法はありますか? どんな紙/リンクも役に立ちます。
これらは、テキスト含意における一般的な問題です。いくつかの論文を紹介します。彼らの動機はテキスト含意ですが、あなたの問題はそれよりも簡単であるべきだと私は信じています。
これらの提案のいくつかは、ランキングの際に考慮すべき機能やキーワードを決定するのに役立ちます。
1を除いて、他のステートメントのいずれも、その人が映画を見たことを必ずしも意味するものではありません。彼らは他の誰かのチケットを購入した可能性があり(3)、ホールの外でポップコーンを販売している人である可能性があります(4)。各文の行間を読み、あなたの直感に正確に一致する答えを返す巧妙なシステムはないと思います(同じ文の他の人とは異なる可能性があります)。
これが奇妙なことに気になる唯一のケースである場合(これは、映画のレビューを明示的に操作している場合に可能です)、ほぼ正確に一致する関数を生成する多数のヒューリスティックを一緒にパッチすることは時間の価値があるかもしれませんこれについてのあなたの直感で。
それ以外の場合は、関連する手がかりを見つけるために、これらの文が由来する他のすべての文で利用可能なコンテキストを探します。実際に映画を見た人は、好きなことをコメントしたり、映画の特定のシーン、キャラクター、俳優などについて意見を述べたりすることがあります。したがって、テキストに感情の高い文章が多く含まれていて、映画の単語やフレーズを参照している場合、その人はおそらく映画を見たでしょう。その多くが未来形である場合は、そうではないかもしれません。
「映画を見たかどうか」、またはより一般的には「イベントに参加したかどうか」などの特定のドメインで作業している場合、それは基本的にテキスト分類タスクのケースです。
NLP の一般的なアプローチは、機械学習ベースの分類子をトレーニングするために、監視済みまたは監視していないとしてタグ付けされた大量の文を使用することです。最も一般的に使用される機能は、キーワードの有無、バイグラム (2 つの単語のシーケンス)、およびおそらくトライグラム (3 つの単語のシーケンス) です。
確率について話したので、事態はもう少し複雑になるかもしれません。adi92 が指摘したように、あなたの 3 つの文では答えが明確ではありません。トレーニング データでそれを表す方法は、0.3 の確率で視聴された文が 3 回、視聴済みとしてタグ付けされ、7回が視聴されなかったとして表示されることです。ほとんどの分類器は、出力を簡単に確率に変換できます。
とにかく、主な難しさは、タスクのトレーニング データセットを作成することだと思います。