問題タブ [latent-semantic-indexing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cluster-analysis - 潜在意味分析のための適切なクラスタリング方法を選択する
テキスト ドキュメントをクラスター化して、同じコンセプトのドキュメントを見つけたいと考えています。潜在的意味分析 (LSA) を使用して意味的類似性を調べましたが、目的に応じてどのクラスタリング方法を選択すればよいか混乱しています。ありがとうございました
python - Gensim: ValueError: インテント (キャッシュ|非表示) の作成に失敗しました | オプションの配列 -- 次元を定義する必要がありますが、(0,) を取得しました
いくつかのドキュメントのストリーミングをエミュレートし、ストリーミングされた追加のドキュメントで LSI を更新しようとしています。私はこのエラーを見つけます:
ドキュメントのストリーミングと LSI モデルの更新のコード:
コーパスは反復ごとに新しい new_vec を取得します。異なる反復の各利回りの new_vec:
エラーは、最初の繰り返し (予想される new_vec の最初の行) に表示されます。残りは、new_vec からの予想される出力です。
nlp - 単純なバイナリ テキスト分類
私は、定義された概念空間 (ここでは、仕事に関連する学習) に関して、80 万以上の学術論文を関連 (1) または関連なし (0) として分類する最も効果的かつ簡単な方法を探しています。
データ: タイトル & アブストラクト (平均 = 1300 文字)
監視された機械学習を含む、および/またはとりわけ、含めるためのいくつかのしきい値を生じさせる特徴を確立することによって、任意のアプローチを使用または組み合わせることさえできます。
アプローチは、概念空間を説明する重要な用語を利用できますが、単純な頻度カウントだけでは信頼性が低すぎます。可能性のある手段には、潜在的な意味分析、n-grams などが含まれる可能性があります。
トレーニング データの生成は、コーパスの 1% までは現実的かもしれませんが、これはすでに 8,000 件の記事 (1 = 関連あり、0 = 関連なし) を手動でコーディングすることを意味しますが、それで十分でしょうか?
具体的なアイデアといくつかの簡単な理由付けは非常に高く評価されているため、どのように進めるかについて十分な情報に基づいた決定を下すことができます. どうもありがとう!
python - 潜在的セマンティック インデックス (LSI) を理解しようとしている
私は特異値分解を学習している最中であり、この概念をどのような目的で使用できるか、そして私が読んでいる本では、SVD が潜在的セマンティック インデックス作成で使用されていると述べています。LSI に関する記事をいくつか読みましたが、LSI は主に検索エンジンや同様のアプリケーションで使用されているようです。私が取り組んでいる小さなデータ分析プロジェクトに LSI を使用したかったのですが、それが私のアプリケーションにとって意味があるかどうかわかりません。これが私が取り組んでいるものです。
約 20000 のゲームのリストがあり、このリストの 2 つの属性は、ゲームのジャンルとゲームがリリースされたプラットフォームです。LSI を使用して、プラットフォームとジャンル属性に関する情報を取得したかったのです。
最初に、行が 24 の異なるジャンルを表し、列が 22 の異なるプラットフォームを表す共起マトリックスを作成しました。次に、共起行列の SVD 分解を行い、U と V の最初の 2 列を抽出し、U と V の 2 次元プロットを作成しました。プロットは次のようになります。
私の質問は、これは潜在的セマンティック インデックス作成の意味のある使用法と見なすことができますか? また、このグラフからどのように解釈できますか? たとえば、ジャンル アクションとプラットフォーム PC は、他のすべての変数から遠く離れていることがわかります。これは、特にこのジャンルとプラットフォームについて何かを教えてくれますか?
ありがとうございました。
gensim - Latent Semantic Indexation with gensim
In order to use the Latent semantic indexation method from gensim, I want to begin with a small "classique" example like :
My question is : How to get the corpus iterator 'wiki_en_tfidf.mm' ? Must I download it from somewhere ? I have searched on the Internet but I did not find anything. Help please ?