問題タブ [latent-semantic-indexing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 潜在的なセマンティック インデックス作成はありますか?
JavaでのLSIのオープンソース実装はありますか? そのライブラリを自分のプロジェクトに使用したいと考えています。jLSI を見たことがありますが、それは他のモデルの LSI を実装しています。スタンダードモデルが欲しい。
algorithm - 潜在的なセマンティック インデックス作成
U、A、V から生成される行列である LSI を介して、同義語を持つドキュメントをまとめると言われています。たとえば、「car」を検索すると、「automobile」を含むドキュメントも取得されます。しかし、LSI は行列の操作に他なりません。セマンティクスではなく、頻度のみが考慮されます。では、私が見逃しているこの魔法の背後にあるものは何ですか? 説明してください。
java - 潜在意味索引付けの助けが必要
申し訳ありませんが、私の質問がばかげているように聞こえる場合は:)JavaでのLSI実装のための擬似コードまたは適切なアルゴリズムを教えてください。私は数学の専門家ではありません。ウィキペディアや他のウェブサイトでLSI(潜在意味索引付け)に関するいくつかの記事を読んでみましたが、それらは数学でいっぱいでした。LSIは数学でいっぱいです。しかし、ソースコードやアルゴが表示された場合。私は物事をより簡単に理解します。だからここに聞いたのは、たくさんのグルがここにいるからです!前もって感謝します
math - lsiの問題
テキストの類似性に潜在意味解析を使用しています。2つの質問があります。
寸法減少のためにK値を選択する方法は?
私は、そのLSIが、たとえば自動車や自動車などの類似した意味の単語で機能するすべての場所をよく読みます。どうしてそれは可能ですか?私がここで見逃している魔法のステップは何ですか?
web - ウェブサイトを分類する - オープン ソース LSI?
多くの Web サイト (数百万) を分類しようとしています。Nutch を使用してそれらをクロールし、サイトのコンテンツを取得できますが、それらを分類するための最良の (そして最も安価な、または無料の) ツールを探しています。
1 つのオプションは、特定のキーワードを検索してサイトを分類する正規表現を作成することですが、Autonomy のようなハイエンドの LSI タイプのツールもあります。Web ページ/サイトからテキストを取得して分類するオープン ソースまたは安価なツールはありますか? 使用するカテゴリの種類をカスタマイズする必要があります。分類の一環として、実際にはページを停止しただけの「偽の」サイトや、ページに広告を掲載しているドメーナーや、ニュース、スポーツ、科学などの単純な古いカテゴリを認識できるようにしたいと考えています健康、食、娯楽etc...
svd - 潜在的なセマンティックインデックス
LSIでのSVD実装後に生成された行列の乗算を実行する方法を見つけようとしています。私の研究にはこれが必要です。ドキュメントクラスタリングを実行したい。
nlp - 潜在意味解析のための「構築済み」マトリックス
作成している小さなアプリに潜在意味解析を使用したいのですが、自分でマトリックスを作成したくありません。(私が持っているドキュメントは、あまり良いトレーニングコレクションを作成できないため、少し短くて不均一であるため、そして新しいコンピューターを入手したばかりで、線形代数などをインストールするのが難しいと感じているためです。必要なライブラリ。)
「デフォルト」/ビルド済みのLSA実装はありますか?たとえば、私が探しているものは次のとおりです。
- デフォルトのU、S、V行列(つまり、Dがトレーニングセットからの用語ドキュメント行列である場合、D = USV ^ Tは特異値分解です)。したがって、任意のクエリベクトルqが与えられると、これらの行列を使用して次のことができます。 qのLSA射影を自分で計算します。
- クエリベクトルqが与えられると、qのLSA射影を返すブラックボックスLSAアルゴリズム。
lucene - テキストコーパスから意味的関連性を抽出する方法
目標は、大きなテキストコーパス内の用語間の意味的関連性を評価することです。たとえば、「警察」と「犯罪」は、同じコンテキストで同時に発生する傾向があるため、「警察」と「山」よりも強い意味的関連性を持つ必要があります。
私が読んだ最も簡単なアプローチは、コーパスからIF-IDF情報を抽出することです。
多くの人が潜在意味解析を使用して意味相関を見つけます。
Lucene検索エンジンに出くわしました:http://lucene.apache.org/
IF-IDFを抽出するのが適切だと思いますか?
テクニックとソフトウェアツール(Javaを優先)の両方の観点から、私がやろうとしていることを何をすることをお勧めしますか?
前もって感謝します!
ムローン
python - Pythonでgensimを使ったLSI
Python の gensim ライブラリを使用して、潜在的なセマンティック インデックス作成を行っています。ウェブサイトのチュートリアルに従ったところ、かなりうまく機能しました。今、私はそれを少し修正しようとしています。ドキュメントが追加されるたびに lsi モデルを実行したい。
これが私のコードです:
geturls は、Web サイトのコンテンツを文字列として返す関数です。繰り返しますが、tfidf と lsi を実行する前にすべてのドキュメントを処理するまで待っていれば機能しますが、それは私が望んでいることではありません。私は各反復でそれをやりたいです。残念ながら、次のエラーが表示されます。
通常、エラーは 2 番目のドキュメントで表示されます。私はそれが私に言っていることを理解していると思います(辞書のインデックスは悪いです)が、なぜなのかわかりません。私はさまざまなことを試しましたが、何もうまくいかないようです。誰が何が起こっているのか知っていますか?
ありがとう!
nlp - 確率的潜在意味解析/索引付け - はじめに
しかし最近、数学をあまり使わなくても LSA の原理を理解するには、このリンクが非常に役立つことがわかりました。 http://www.puffinwarellc.com/index.php/news-and-articles/articles/33-latent-semantic-analysis-tutorial.html . それは私がさらに構築するための良い基礎を形成します。
現在、私は確率的潜在的セマンティック分析/インデックス作成の同様の紹介を探しています。数学は少なく、その背後にある原則を説明する例が多くなっています。そのような紹介をご存知でしたら教えてください。
文間の類似度の尺度を見つけるために使用できますか? それは多義性を扱いますか?
同じためのpython実装はありますか?
ありがとうございました。