問題タブ [lsa]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
441 参照

text - LSAに関する疑問

参照ドキュメントとリポジトリ内の一連のドキュメントとの類似点を見つけなければなりません。

私の疑問:

  1. 私の db には約 7 つのドキュメントがあるため、8*8 varray(document matrix) しか得られません。これらの 8 つの値だけで余弦の類似性を見つけた場合、正しい結果が得られますか?

  2. そのような方法は一般的に採用されていますか?

これをコード化するためにJavaを使用します。jama パッケージを使用して svd を見つけます。

0 投票する
1 に答える
258 参照

java - Java での svd の問題

私はジャマとコルト(Javaでコードを書いています)を経験しました。どちらも、行数が列数よりも多くなるような配列を使用することを期待しています。

しかし、潜在的意味解析 (LSA) の場合、5 冊の本があり、合計 1000 の奇妙な単語があります。用語ドキュメント マトリックスを使用すると、5*1000 マトリックスが得られます。

これは機能しないため、行列を転置する必要があります。転置では 1000 * 5 を使用します。1000*5 で svd を実行すると、 5*5 の S 行列が得られます。次元削減を実行するには、この 5*5 行列は小さく見えます。

何ができますか?

0 投票する
1 に答える
386 参照

search-engine - 検索エンジンの開発における潜在的意味解析の役割は何ですか?

最終年度のプロジェクトで、音楽に焦点を当てた検索エンジンを開発しようとしています。潜在的意味分析と、それがインターネット上でどのように機能するかについて調査を行っています。LSI が検索エンジンのシステム全体のどこに位置するかを理解するのに苦労しています。Web クローラーが Web ページの検索を終了した後に使用する必要がありますか?

0 投票する
1 に答える
6098 参照

java - 潜在意味解析の次元数はどのように決めるのですか?

最近は潜在意味解析に取り組んでいます。Jama パッケージを利用して Java で実装しました。

コードは次のとおりです。

しかし、どのように次元数を決定するのでしょうか? 最良の結果を得るためにシステムを縮小する次元数を決定する方法はありますか? LSA の効果的なパフォーマンスのために考慮すべきその他のパラメーターは何ですか?

0 投票する
0 に答える
484 参照

.net - SSPI/LSA認証

アイデアは会社のドメイン資格を取得することです。私はRASカードとVPNを使用してネットワークに参加しているユーザーを認証しようとしています。同様のことをしているコードを見つけましたが、何らかの理由でローカルクレデンシャルのみが返されます。しかし、ユーザーがVPNおよびRASカードを使用して接続するために入力する会社のクレデンシャルに興味があります。

何かアドバイスをいただけますか、それともコード例がありますか?

}

ありがとう!!!!!

0 投票する
0 に答える
209 参照

java - Jama getS が例外を与える

既に作成した用語文書マトリックスに SVD を適用しています。マトリックスは次の形式の double 配列です。

public static double[][] tdidf;
tdidf = new double[listOfFiles.length][keywordList.size()];

しかし、私がsvdをアップルするとき:

public void computeSVD()
{
マトリックス A = 新しいマトリックス(tdidf); SingularValueDecomposition svd = A.svd();
マトリックス U = svd.getU();
行列 S = svd.getS();
}

私はエラーが発生しています:

スレッド「メイン」での例外 java.lang.ArrayIndexOutOfBoundsException: 53
at Jama.SingularValueDecomposition.getS(SingularValueDecomposition.java:511)
at TDIDF_Matrix.computeSVD(TDIDF_Matrix.java:119)
at Jama.main(Jama.java:191)

SVD を計算する前に A を転置する必要がありますか?

0 投票する
1 に答える
187 参照

lsa - 「LSAイントロAIセミナー」で見られるLSAワードスコアの計算方法

http://www.cs.nmsu.edu/~mmartin/LSA_Intro_AI_Seminar.pptを確認すると、スライド25に各単語の計算されたスコアが表示されます。

この要約の計算方法を見つけることができませんでした。

最近、私はLSAの実装を完了し、このPPTで他のすべての結果を生成できますが、Slive25では生成できません。

私がこれを尋ねる理由は、これを使用して、ドキュメントのスコアが高い「主な理由」を示したいからです。

0 投票する
1 に答える
2651 参照

c++ - C++ の潜在的セマンティック分析/インデックス作成ライブラリ

LSA/LSI 用の C++ ライブラリはありますか? できれば MIT、BSD、Apache、... ライセンス - GPL なし。

0 投票する
1 に答える
254 参照

hadoop - SparseVectorsFromSequenceFiles、RowIdJob、および RowSimilarityJob ジョブのメモリ実装はありますか

SparseVectorsFromSequenceFilesMap/Reduce ジョブを実行する Mahout が提供する、RowIdJobおよびRowSimilarityJobHadoop ジョブを使用して、潜在的セマンティック分析の実行に取り組んできました。私は、単一のスレッドまたはできれば複数のスレッドで、メモリ内で実行されるこれらの機能の同等の実装を見つけようとしています。

そのようなことはありますか?

0 投票する
1 に答える
725 参照

r - RのLSAパッケージのtextmatrix関数でエラーを回避する方法

私はこの Kaggle コンペティションに参加していますが、RのLSA パッケージのtextmatrix関数に詳しい人がいるかどうか疑問に思っています。

基本的に、textmatrix関数はディレクトリを引数として受け入れ、指定されたディレクトリ内で見つかったすべてのテキスト ファイルを使用して textmatrix を作成します。

残念ながら、textmatrix関数は、用語が含まれていないテキスト ファイルを検出するとエラーをスローします (たとえば、ストップ ワードを使用してフィルター処理した場合に発生する可能性があります)。

最終的に用語がゼロになるファイルをtextmatrix に無視させる簡単な方法を知っている人はいますか? または、これらのファイルを特定して削除する比較的迅速な方法はありますか?

ティア!