問題タブ [latent-semantic-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - SparseVectorsFromSequenceFiles、RowIdJob、および RowSimilarityJob ジョブのメモリ実装はありますか
SparseVectorsFromSequenceFiles
Map/Reduce ジョブを実行する Mahout が提供する、RowIdJob
およびRowSimilarityJob
Hadoop ジョブを使用して、潜在的セマンティック分析の実行に取り組んできました。私は、単一のスレッドまたはできれば複数のスレッドで、メモリ内で実行されるこれらの機能の同等の実装を見つけようとしています。
そのようなことはありますか?
matlab - 非常に大きなデータセットで潜在的意味分析を行う方法
ドキュメントを 2 次元でグラフ化できるように、次元を削減するために、約 50,000 のドキュメントと 300,000 の単語/用語を含む非常に大きなデータセットに対して LSA または主成分分析を実行しようとしています。
Python と MATLAB で試しましたが、データセットのボリュームが原因で、どちらのインスタンスでもシステムがメモリ不足になり、クラッシュします。負荷を軽減する方法や、より迅速かつ効率的に実行できる近似 LSA/PCA を実行する方法を知っている人はいますか? 私の全体的な目標は、300k ワードを大幅に次元削減することです。
recommendation-engine - 行列分解によるレコメンデーションの生成方法
レコメンデーション システムで行列因子分解 (潜在因子モデル) のいくつかの論文を読みましたが、アルゴリズムを実装できます。MovieLens データセットで論文が述べているように、同様の RMSE 結果を得ることができます。
しかし、予測評価の順位でユーザー毎に上位K(例えばK=10)のおすすめ動画リストを生成してみると、全ユーザーの中で評価が高いと思われる動画は、同じ。
それが機能するだけですか、それとも何か問題がありますか?
analysis - 潜在意味解析(LSA)単一値分解(SVD)の理解
LSI(機械工学のバックグラウンド)についての私の控えめな理解を通して私と一緒に耐えてください:
LSIでSVDを実行すると、次の3つの行列ができます。
U、S、およびVの転置。
Uは単語とトピックを比較し、Sは各機能の強さの一種の尺度です。Vtはトピックとドキュメントを比較します。
SVDの前の元のマトリックスを返します。あまり(なし)詳細な代数を実行しないと、次のようになります。
用語ごとのマトリックスを返します。これは、用語間の比較を提供します。つまり、ある用語が他の用語とどの程度関連しているか、コンポーネントではなく単語を比較する種類のDSM(設計構造マトリックス)です。私は完全に間違っている可能性がありますが、サンプルデータセットで試してみたところ、結果は理にかなっているようでした。しかし、それはバイアスかもしれません(私はそれを機能させたかったので、私が望むものを見ました)。ドキュメントが保護されているため、結果を投稿できません。
私の質問は、これは意味がありますか?論理的に?数学的に?
時間/応答をありがとう。
python - Web ページからトピックを抽出する
私はいくつかの機械学習を学ぼうとしていますが、残念ながら教師なし学習は私をうまく扱っていません.StackOverflowの好意による半教師あり学習が私を助けてくれるかもしれないと思っていました! :)
生の HTML から Web ページのトピックをできるだけ簡単に抽出しようとしています。私が持っているのは、10,000 個の HTML ファイルのリストです。このリストで、WebページのID(ファイル名)とWebページのトピックをTSV形式で出力するプログラムを実行したいと思います。
これを行うための多くの API を調べ、python と scikit-learn を使用して独自の関数を実装しようとしましたが、見落としている簡単で効果的な方法があると確信しています。
私が持っているもの:
私が欲しいもの
実行するプログラム:
したがって、最終的には次の形式の tsv になります
nlp - 潜在意味分析では、特異値を切り捨てた後、分解された行列をどのように再結合しますか?
マトリックス分解と潜在的セマンティック インデックス作成(オンライン版 © 2009 Cambridge UP)を読んでいます。
マトリックスの次元数を減らす方法を理解しようとしています。13 ページに、 Python の numpyを使用して複製しようとしている例があります。
元の出現行列を「a」と呼び、3 つのSVD (特異値分解) 分解行列を「U」、「S」、および「V」と呼びましょう。
私が抱えている問題は、「S」の小さい特異値をゼロにした後、numpy を使用して「U」、「S」、および「V」を乗算すると、答えが pdf に示されているとおりにならないことです。 . 下の 3 行はすべてゼロではありません。おもしろいことに、「S」と「V」を掛けるだけで正しい答えが得られます。
これは驚くべきことですが、「S」と「V」を乗算することは、実際にマニングとシュッツェの著書「統計的自然言語処理の基礎」であなたがしなければならないと述べていることです。しかし、これはpdfが10ページであなたがしなければならないと言っていることではありません.
それで、ここで何が起こっているのですか?
machine-learning - LSA - 機能選択
ドキュメントのこのSVD分解があります
このページを読みましたが、ドキュメントの分離に最適な機能を計算する方法がわかりません。
そんなこと知ってる:
S x Vt でドキュメントと機能の関係がわかります
U x S は、用語と機能の関係を教えてくれます
しかし、最適な機能を選択するための鍵は何でしょうか?
nlp - 潜在的セマンティック分析がセマンティクスを処理する方法
私はLSA法を経験しました。LSAは意味解析に使えると言われています。しかし、それが LSA でどのように機能しているのか理解できません。LSA がセマンティクスを処理する方法を教えてください。
nlp - 潜在的意味分析を使用してパッセージの類似性を測定する
現在、セマンティクス (意味) に基づいて 2 つのテキストを比較するプログラムを開発しています。文字列の距離を比較するための便利な方法を提供する lingpipe などのライブラリがあることは理解していますが、テキストの類似性を測定するには LSA が最適な方法であると聞いています。
LSA を使用してテキストの類似性を測定することに関して、1 つだけ混乱があります。そのプロセスは、LSA では、
ただ知りたいだけです...
A. SVD では、行列は 3 つの小さな行列に縮小されます。では、余弦距離の測定に使用される小さい行列はどれでしょうか?
B. 通常、余弦距離はベクトルに適用されます。したがって、それらを行列に適用する場合、行列が反復され、2つのベクトルごとにコサイン距離が測定されると仮定しました。そして、これらすべての距離の平均は、これら 2 つの行列間の最終的なコサイン距離であると見なされますか?
これは非常にニッチなトピックであることは理解していますが、この 2 つの質問に光を当てたいと思っています。ありがとう