問題タブ [latent-semantic-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
document-classification - ドキュメント分類のための LSA/LSI と Naive Bayes の組み合わせ
私はgensimパッケージとベクトル空間モデル全般に不慣れで、LSA 出力を正確にどうすればよいかわかりません。
私の目標の概要を簡単に説明すると、トピック モデリングを使用して Naive Bayes Classifier を拡張し、レビュー (肯定的または否定的) の分類を改善したいと思います。これは私が読んでいる素晴らしい論文で、私のアイデアを形作っていますが、実装についてはまだ少し混乱しています..
Naive Bayes の作業コードは既に取得しています。現在、機能とラベルが正または負のいずれかであるため、ユニグラム バッグ オブ ワードを使用しています。
これが私のgensimコードです
ここに出力があります
提案や一般的なコメントをいただければ幸いです。
r - R で lsa パッケージを使用する - Ops.simple_triplet_matrix(m, 1) のエラー: 互換性のない次元
R で lsa パッケージを使用する方法を学習しようとしています。以下の例よりもはるかに大きなデータ セットを使用していますが、これは再現性を目的としています (このコードを自分のサイトに投稿したことに対するこの人物への小道具です。素晴らしいリソース)。
解決できないような奇妙なエラー メッセージが表示されます。
以下は、私がいじっているコードの一部です。
問題なくコーパスを生成でき、用語ドキュメント マトリックスに変換できます。dt.mat.lsa を定義すると、エラーが発生します。
トレースバックは次のとおりです。
したがって、私の主な質問は次のとおりです。
- なぜこのエラーが発生するのですか?
- このようなエラーを回避するためにコードを修正するにはどうすればよいですか?
ここで提供できるヘルプを事前に感謝します。これは私の最初の投稿なので、私の質問の質に関するフィードバックも大歓迎です!
cluster-analysis - 潜在意味分析のための適切なクラスタリング方法を選択する
テキスト ドキュメントをクラスター化して、同じコンセプトのドキュメントを見つけたいと考えています。潜在的意味分析 (LSA) を使用して意味的類似性を調べましたが、目的に応じてどのクラスタリング方法を選択すればよいか混乱しています。ありがとうございました
r - R 教師あり潜在的ディリクレ割り当てパッケージ
RにこのLDAパッケージを使用しています。具体的には、教師付き潜在ディリクレ割り当て(slda)を実行しようとしています。リンクされたパッケージには、slda.em
関数があります。しかし、私を混乱させるのは、アルファ、イータ、および分散パラメーターを要求することです。私が理解している限り、これらのパラメーターはモデルでは未知数であると考えていました。私の質問は、パッケージの作成者は、これらがパラメーターの初期推測であると言うつもりでしたか? はいの場合、実行結果からそれらにアクセスする方法はないようですslda.em
。
アルゴリズムで追加の EM ステップをコーディングする以外に、これらのパラメーターの妥当な値を推測する方法はありますか?
python - テキスト内の文間の意味的一貫性を見つける
これらのリンクlink1とlink2のコードに基づいて、a 間の意味的類似性を自動的に計算するプログラムを作成する助けが必要です。連続文と b. 文は、ドキュメント全体 (1000 文) 内の 1 つの介在句で区切られます。
提供されたコードは既にトークン化されており、意味の類似性を見つけることができますが、テキスト全体 (a、b) の連続する文と「介在する」文の間の意味の類似性を計算 (および表示) する新しいコードを記述する方法がわかりません。同じことを何度もやりたくない。
python - テキスト内の文間の意味的類似性
ここと以前のフォーラム ページの資料を使用して、テキスト全体の連続する文間の意味的類似性を自動的に計算するプログラムのコードを記述しました。ここにあります;
最初の部分のコードは最初のリンクからコピーして貼り付けたもので、その下に 245 行の後に挿入したものがあります。245 行目以降の余分な部分をすべて削除しました。
私のテキストファイルは次のようにフォーマットされています。
赤いアルコール飲料。新鮮なオレンジジュース。英語の辞書。黄色の壁紙。
最後に、次のように、類似度が横にある連続した文のすべてのペアを表示したいと思います。
r - Rのドキュメント全体を使用した潜在テキスト分析(lsaパッケージ)
R の lsa パッケージを使用して、短い引用に対して潜在テキスト分析を正常に実行するコードがあります (以下を参照)。ただし、より大きなドキュメントのテキストに対してこの方法を使用したいと思います。各引用スペースにすべてをコピーして貼り付けるのは非常に非効率的です。機能しますが、実行には永遠の時間がかかります。データベースまたはデータフレームから各「引用」(この場合はドキュメント) を直接インポートする方法はありますか? もしそうなら、それはどのような形式である必要がありますか?txt 形式のドキュメントは、R にインポートすると自動的に段落に分割されますが、これが lsa パッケージによって実行される分析と互換性があるかどうかはわかりません。
gensim - Latent Semantic Indexation with gensim
In order to use the Latent semantic indexation method from gensim, I want to begin with a small "classique" example like :
My question is : How to get the corpus iterator 'wiki_en_tfidf.mm' ? Must I download it from somewhere ? I have searched on the Internet but I did not find anything. Help please ?