問題タブ [latent-semantic-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
692 参照

gensim - Which formula of tf-idf does the LSA model of gensim use?

There are many different ways in which tf and idf can be calculated. I want to know which formula is used by gensim in its LSA model. I have been going through its source code lsimodel.py, but it is not obvious to me where the document-term matrix is created (probably because of memory optimizations).

In one LSA paper, I read that each cell of the document-term matrix is the log-frequency of that word in that document, divided by the entropy of that word:

However, this seems to be a very unusual formulation of tf-idf. A more familiar form of tf-idf is:

I also notice that there is a question on how the TfIdfModel itself is implemented in gensim. However, I didn't see lsimodel.py importing TfIdfModel, and therefore can only assume that lsimodel.py has its own implementation of tf-idf.

0 投票する
0 に答える
27 参照

python - 教師なしコマンドの分類

Bag-Of-Words 表現を使用せずに/bin/busybox chmod 777 /dvrHelperなどのコマンドをクラスター化するにはどうすればよい ですか? LDAWord2vecなどのモデルは、私の目標に役立つでしょうか?

0 投票する
0 に答える
92 参照

nlp - nltk 潜在意味解析は、最初のトピックを何度もコピーします

これは自然言語処理の最初の試みであるため、潜在的意味分析から始め、このチュートリアルを使用してアルゴリズムを構築しました。テストした後、最初のセマンティック ワードのみを分類し、他のドキュメントの上に同じ用語を何度も繰り返すことがわかりました。

HEREにもあるドキュメントをフィードしてみましたが、まったく同じです。同じトピックの値を他のトピックで数回繰り返します。

何が起こっているのか説明できる人はいますか?私はずっと検索してきましたが、すべてがチュートリアルとまったく同じようです。