python - TF-IDF の簡単な使い方 - NLTK/Scikit Learn

Question

さて、私は少し混乱しています。ただし、これは単純で直接的な質問です。

コーパス全体に対してドキュメントの TF-IDF マトリックスを計算すると、次のような結果が得られます。

array([[ 0.85...,  0.  ...,  0.52...],
       [ 1.  ...,  0.  ...,  0.  ...],
       [ 1.  ...,  0.  ...,  0.  ...],
       [ 1.  ...,  0.  ...,  0.  ...],
       [ 0.55...,  0.83...,  0.  ...],
       [ 0.63...,  0.  ...,  0.77...]])

この結果を使用して、検索クエリに対して最も類似したドキュメントを取得するにはどうすればよいですか? 基本的に、ウィキペディアの検索バーを再作成しようとしています。検索クエリに基づいて、Wikipedia から最も関連性の高い記事を返したいと考えています。このシナリオでは、6 つの記事 (行) があり、検索クエリには 3 つの単語 (列) が含まれています。

列のすべての結果を合計するか、それともすべての行を合計するか? 値が大きいほど関連性が高いですか、それとも値が小さいほど関連性が高いですか?

score 5 · Accepted Answer

Are you familiar with cosine similarity? For each article (vector A) compute its similarity to the query (vector B). Then rank in descending order and choose the top result. If you're willing to refactor, the gensim library is excellent.

python - TF-IDF の簡単な使い方 - NLTK/Scikit Learn

1 に答える 1

Related

Reference