問題タブ [lsa]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1529 参照

r - R で lsa パッケージを使用する - Ops.simple_triplet_matrix(m, 1) のエラー: 互換性のない次元

R で lsa パッケージを使用する方法を学習しようとしています。以下の例よりもはるかに大きなデータ セットを使用していますが、これは再現性を目的としています (このコードを自分のサイトに投稿したことに対するこの人物への小道具です。素晴らしいリソース)。

解決できないような奇妙なエラー メッセージが表示されます。

以下は、私がいじっているコードの一部です。

問題なくコーパスを生成でき、用語ドキュメント マトリックスに変換できます。dt.mat.lsa を定義すると、エラーが発生します。

トレースバックは次のとおりです。

したがって、私の主な質問は次のとおりです。

  1. なぜこのエラーが発生するのですか?
  2. このようなエラーを回避するためにコードを修正するにはどうすればよいですか?

ここで提供できるヘルプを事前に感謝します。これは私の最初の投稿なので、私の質問の質に関するフィードバックも大歓迎です!

0 投票する
0 に答える
21 参照

taxonomy - 一連の用語間に階層関係を作成する

Web をマイニングして、一連の用語 (エンティティ、名詞など) 間の階層関係を形成する必要があります。これは分類学の線に沿っていますが、固有名詞 (人) とエンティティを意味のある方法でリンクできるようにする必要があります。

例:

としてリンクする必要があります

これを行うにはどうすればよいですか?

0 投票する
1 に答える
456 参照

r - R- 次元削減 LSA

私はsvdの例に従っていますが、最終的な行列の次元を減らす方法はまだわかりません:

しかし、reconそれでも同じ次元を持っています。これをセマンティック分析に使用する必要があります。

0 投票する
2 に答える
1471 参照

r - 用語ドキュメント マトリックスの SVD で必要な値が得られない

「LSAの紹介」という論文の例を再現しようとしています:LSA の紹介

例では、次の用語ドキュメント マトリックスがあります。

ここに画像の説明を入力

そして、SVD を適用すると、次のようになります。

ここに画像の説明を入力

これを再現しようとして、次の R コードを書きました。

同じ用語と文書のマトリックスを取得し、実際に同じ相関関係を取得しました。

しかし、行列に SVD を適用しようとしましたが、等しい値は固有値のみであり、論文で得られたものを取得できません。

何か不足していますか?

よろしくお願いします

編集:

この例では、次元が削減され、少ない固有値が削除されたと想定されています。私の問題は、SVD の後に得られる相関が例の相関と異なることです。

ここに画像の説明を入力

0 投票する
0 に答える
87 参照

nlp - Gensim はウィキペディアのコーパスを処理する際に複数単語の用語を処理しますか?

私は英語版ウィキペディアの実験に関するチュートリアルを読んでいて、LSA と LDA によって生成されたトピックの多くに、明らかに連結された複数単語の用語が含まれていることに気付きました。

誰かがこれがどこで行われるかを示すことができますか. gensim.scripts.make_wikigensim.corpora.wikicorpus、およびgenesis.utilsを見てきました。

0 投票する
1 に答える
225 参照

python - テキスト クラスタリング アプリケーションの意味

scikit-learn サイトには、テキスト マイニングに適用された k-means の例があります。興味のある抜粋は次のとおりです。

(例へのリンク)

私の最初の質問は、km.cluster_centers_ に関するものです。各用語は実際にはディメンションであるため、用語ごとのクラスター中心値は、用語ディメンション内の各クラスターの「位置」です。各用語次元の特定の用語の値が高いほど、クラスタを表す用語の「強さ」を表すため、これらの値はソートされていますか? もしそうなら、その理由を教えてください。

第 2 に、このアルゴリズムは、クラスタリングの前に用語ドキュメント マトリックスに対して LSA を実行するオプションを提供します。これは、次元の直交性を通じて各クラスターの一意性に役立つと思いますか? または、これが行う他の何かがありますか?クラスタリングの前に SVD を実行するのは一般的ですか?

前もって感謝します!

0 投票する
1 に答える
897 参照

python - gensimでTF-IDFまたはLSAを使用して単語の類似性を計算するには?

gensim の word2vec は、単語間の類似度を計算できることを知っています。しかし、今はgensimで TF-IDF または LSA を使用して単語の類似性を計算したいと考えています。どうやってするの?

注: gensim で LSA を使用してドキュメントの類似度を計算するのは簡単です: http://radimrehurek.com/gensim/wiki.html