問題タブ [latent-semantic-indexing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - gensim の潜在的ディリクレ配分アルゴリズムを使用したクラスタリング
LDAを使用して、特定の入力セットに対してgensimでクラスタリングを行うことは可能ですか? どうすればそれについて行くことができますか?
api - 関連するキーワードを取得するための無料のLSIサービスまたはAPI
YahooにはYahooBossAPIと呼ばれる無料のLSIサービスがあり、7月20日から支払いが開始され、Microsoft BingSearchEngineにはYahooBossAPIと同様の機能を提供する無料のサービスがあると聞いています。
開発者にそのようなサービスを提供する上記以外の無料のAPIはありますか?
私は何の結果もなくグーグルから似たようなものを見つけようとしてきました。
svm - LSA/SVD を使用した文書分類
サポート ベクター マシン (SVM) を使用してドキュメント分類を行おうとしています。私が持っている書類はメールの集まりです。SVM 分類子をトレーニングするドキュメントが約 3000 個あり、分類が必要なテスト ドキュメント セットが約 700 個あります。
最初に、バイナリ DocumentTermMatrix を SVM トレーニングの入力として使用しました。テスト データを使用した分類では、約 81% の精度が得られました。DocumentTermMatrix は、いくつかのストップワードを削除した後に使用されました。
このモデルの精度を向上させたかったので、LSA/SVD ベースの次元削減を使用して、結果の削減された係数を分類モデルへの入力として使用してみました (元のバッグの 20、50、100、および 200 の特異値で試しました)。 〜3000語)。分類のパフォーマンスは、いずれの場合も悪化しました。(LSA/SVD を使用するもう 1 つの理由は、65 レベルの応答変数の 1 つに関するメモリの問題を解決することでした)。
LSA/SVD 分類のパフォーマンスを向上させる方法について、誰かがいくつかの指針を提供できますか? これは特定のデータやコードのない一般的な質問であることは認識していますが、デバッグを開始する場所について専門家からの情報をいただければ幸いです。
参考までに、テキストの前処理 (パッケージ: tm、snowball、lsa) と分類モデルの構築 (パッケージ: kernelsvm) に R を使用しています。
ありがとうございました。
java - LSA - SVD を見つけた後の手順
朝からかなりの数のチュートリアルを読みました。私の問題は、2 つのドキュメント間の類似性を見つけることです。この目的のために Java で LSA を使用することを楽しみにしています。
term-document マトリックスの作成を理解してから、SVD(Dimensionality gets Reduce) を適用します。結果として 3 つの行列が取得されます。これはばかげているように聞こえるかもしれませんが、私はかなり長い間これに固執してきました。2 つのドキュメント間の類似性を見つけなければならない場合、どうすればよいですか?
python - TF-IDF は Python の gensim ツールにどのように実装されていますか?
ネットから見つけたドキュメントから、コーパス内の用語の用語頻度と逆ドキュメント頻度の重みを決定するために使用される式を見つけました。
tf-idf(wt)= tf * log(|N|/d);
gensim で言及されている tf-idf の実装を行っていました。ドキュメントに記載されている例は
これは明らかに Tf-IDF の標準実装に従っていません。両モデルの違いは何ですか?
注: 0.70710678 は、固有値計算で通常使用される値 2^(-1/2) です。では、固有値はどのようにして TF-IDF モデルに組み込まれるのでしょうか?
nlp - LDA はどのように一貫した結果をもたらしますか?
一般的なトピック モデルである潜在的ディリクレ配分 (LDA) は、コーパスからトピックを抽出するために使用されると、辞書の単語に対してさまざまな確率分布を持つさまざまなトピックを返します。
一方、Latent Semantic Indexing (LSI) は、反復ごとに同じトピックと同じ分布を提供します。
実際、LDA はトピックの抽出に広く使用されています。分類が行われるたびに異なるトピック分布を返す場合、LDA はどのように一貫性を維持しますか?
この簡単な例を考えてみましょう。D がドキュメントを表すドキュメントのサンプルを取得します。
各行はドキュメントを表します。上記のコーパスでは、ドキュメントからトピックを生成するために LDA モデルが使用されています。Gensim は LDA に使用され、選択されたトピック数が 4、パス数が 20 のバッチ LDA が実行されます。
元のコーパスでバッチ LDA が実行され、20 回のパス後に生成されるトピックは次のとおりです。
ここで、同じ元のコーパスに対してバッチ LDA が再度実行され、その場合に生成されるトピックは次のとおりです。
各トピックの単語分布は、両方の場合で同じではありません。実際、単語の分布は決して同じではありません。
では、LSI のようなトピックで同じ単語分布を持たない場合、LDA はどのように効果的に機能するのでしょうか?
java - 潜在意味解析の次元数はどのように決めるのですか?
最近は潜在意味解析に取り組んでいます。Jama パッケージを利用して Java で実装しました。
コードは次のとおりです。
しかし、どのように次元数を決定するのでしょうか? 最良の結果を得るためにシステムを縮小する次元数を決定する方法はありますか? LSA の効果的なパフォーマンスのために考慮すべきその他のパラメーターは何ですか?
lisp - 潜在意味索引付けのCommonLisp実装
潜在的セマンティックインデックスの無料のCommonLisp実装はありますか?その機能を既存のLispシステムに統合したいと思います。
python - Python の不一致における潜在的意味解析
次のコードを使用して、Pythonでの潜在的なセマンティック インデックス作成に関するウィキペディアの記事に従おうとしています。
数学がどのように機能するか:
正しくないように見える数学で、何が機能しますか: (ここから)
LSA の計算について私が見つけることができるすべてが最初のものを正しいと示しているのに、なぜルートは機能し、最初のものは機能しないのですか? 明らかな何かが欠けているような気がします...