machine-learning - NLP: ドキュメントがトピックに属する確率を計算していますか?

Question

トピックが与えられた場合、ドキュメントがそのトピック (スポーツなど) に「属する」確率を計算するにはどうすればよいですか?

これは私が働かなければならないものです：

1) 私は、そのトピックに関連するドキュメントの一般的な単語を知っています (すべてのストップワードを削除します)。また、その単語を含むドキュメントの割合も知っています。たとえば、トピックがスポーツの場合、次のことを知っています。

75% of sports documents have the word "play"
70% have the word "stadium"
40% have the word "contract"
30% have the word "baseball"

2) これと、大量の単語を含むドキュメントを考えると、このドキュメントがそのトピックに属する確率をどのように計算できますか?

score 2 · Accepted Answer

topic modeling( https://en.wikipedia.org/wiki/Topic_model ) を確認してください。python でコーディングしている場合は、radim の実装である gensim ( http://radimrehurek.com/gensim/tut1.html ) を確認してください。それ以外の場合は、 http://www.cs.princeton.edu/~blei/topicmodeling.htmlから他の多くの実装があります。

score 2 · Accepted Answer

これは、トピックをクラス、単語を特徴とするファジー分類問題です。通常、各トピックの単語の袋はなく、一連のドキュメントと関連するトピックがあるため、最初にこのケースについて説明します。

確率を見つける最も自然な方法 (確率論で使用されるのと同じ意味で) は、単純ベイズ分類子を使用することです。このアルゴリズムは何度も説明されているので、ここでは説明しません。この概要または関連するCoursera NLPの講義で、非常に良い説明を見つけることができます.

使用できるアルゴリズムは他にもたくさんあります。たとえば、あなたの説明はtf*idfベースの分類子に自然に適合します。tf*idf (用語頻度 * 逆ドキュメント頻度) は、最新の検索エンジンでドキュメント内の単語の重要性を計算するために使用される統計です。分類のために、各トピックの「平均ドキュメント」を計算し、新しいドキュメントが各トピックにどれだけ近いかをコサイン類似度で見つけることができます。

あなたが説明したのとまったく同じケースがある場合-トピックと関連する単語のみ-単語の各バッグを、おそらく頻繁に使用される単語を複製した単一のドキュメントと見なしてください。

score 0 · Accepted Answer

クラスタリングの問題を解決するには、多くのアプローチがあります。単純なロジスティック回帰から始めて、結果を確認することをお勧めします。定義済みのオントロジーセットが既にある場合は、次の段階でそれらを機能として追加して、精度を向上させることができます。

machine-learning - NLP: ドキュメントがトピックに属する確率を計算していますか?

3 に答える 3

Related

Reference