トピックが与えられた場合、ドキュメントがそのトピック (スポーツなど) に「属する」確率を計算するにはどうすればよいですか?
これは私が働かなければならないものです:
1) 私は、そのトピックに関連するドキュメントの一般的な単語を知っています (すべてのストップ ワードを削除します)。また、その単語を含むドキュメントの割合も知っています。たとえば、トピックがスポーツの場合、次のことを知っています。
75% of sports documents have the word "play"
70% have the word "stadium"
40% have the word "contract"
30% have the word "baseball"
2) これと、大量の単語を含むドキュメントを考えると、このドキュメントがそのトピックに属する確率をどのように計算できますか?