“topic-modeling”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

768 参照

sparse-matrix - 疎行列の pLSA 実装

Thomas Hoffman (1999) によって提案された pLSA アルゴリズムを実装しようとしています。ただし、私が見つけたすべての実装では、入力された term-doc マトリックスがスパースではなく完全であると見なされます。私の入力行列は非常に大きくて疎なので、疎性をサポートするアルゴリズムを見つけたいと思います。見つけるのを手伝ってくれませんか？Matlab または Java が推奨されます。

更新 PennAspect http://www.cis.upenn.edu/~ungar/Datamining/software_dist/PennAspect/index.html が実際にスパース行列入力で PLSA を実装していることがわかりました。

解決策は簡単です。2D 不規則配列 (各行の長さが同じではない配列) を使用して、疎行列を表すことができます。

2012-09-11T20:01:40.180

0 投票する

1 に答える

1390 参照

mahout - Mahout LDA テストデータセットのトピックを予測する方法は?

Apache Mahout の Web サイトhttps://cwiki.apache.org/MAHOUT/latent-dirichlet-allocation.htmlから、LDA モデルを適合させ、計算されたトピックを P("word" の形式で出力する手順を確認できます。 |「トピック番号」)。ただし、トピックの分布を予測するために、トレーニング済みのモデルをテストデータに適用する方法に関する情報はありません。それとも、条件付き確率の出力を使用してテストデータセットからトピックを見つける独自のプログラムを作成する必要がありますか?

mahout lda topic-modeling

2012-09-21T06:05:52.017

0 投票する

3 に答える

1304 参照

python - トピックベースのテキストとユーザーの類似性

トピック表現を使用して、ユーザーとテキストドキュメント間の類似性を計算したいと考えています。つまり、各ドキュメントとユーザーは、トピック (神経科学、テクノロジーなど) のベクトルと、そのトピックがユーザー/ドキュメントにどの程度関連しているかによって表されます。

私の目標は、これらのベクトル間の類似性を計算して、類似したユーザー、記事、推奨記事を見つけることです。

Pearson Correlation を使用しようとしましたが、約 40k の記事に達し、ベクトルの長さが約 10k になると、メモリと時間がかかりすぎてしまいます。

私はnumpyを使用しています。

これを行うためのより良い方法を想像できますか? それとも（単一のマシン上で）避けられないのですか？

ありがとうございました

python numpy recommendation-engine topic-modeling gensim

2012-10-03T17:32:57.970

0 投票する

1 に答える

379 参照

tagging - 自動トピックタグ付け用の MALLET - トレーニングデータ付き

すでにタグ付けした文書のコーパスがあります。さまざまなトピックに関連する約 400 個のタグのリストを修正しました。各ドキュメントは、1 つ以上のタグと短いタイトルでタグ付けされています。(私はタイトルのより大きなリストも持っています - ドキュメントに非常に類似したコンテンツが含まれている場合、私はしばしば再利用します)

既存のドキュメントにタグを付けた方法に基づいて、コーパスに追加する新しいドキュメントのタグ/タイトルを (既存のリストから) 提案するインターフェイスを作成したいと考えています。

既存のタグ付きデータがない場合にテキストを分析するのに最適な、確率論的トピックモデル LDA クラスについて読んだことがあります。しかし、既存の作品を組み込む方法がわかりません。

任意の提案をいただければ幸いです。

敬具

スワミ

tagging mallet training-data topic-modeling

2012-10-04T11:55:53.907

0 投票する

2 に答える

599 参照

python - トピックベースのレコメンダーシステムのユーザープロファイリング

関連するテキストドキュメントをユーザーに提案するために、トピックベースのレコメンダーシステムを考え出そうとしています。

ウィキペディアのコーパスで、gensimを使用して潜在意味索引付けモデルをトレーニングしました。これにより、ドキュメントをLSIトピックディストリビューションに簡単に変換できます。私の考えは、ユーザーを同じように表現することです。ただし、もちろん、ユーザーには記事の閲覧履歴と記事の評価があります。

だから私の質問は：ユーザーをどのように表現するのですか？

私が持っていたアイデアは次のとおりです。表示されたすべてのドキュメントの集合体としてユーザーを表します。しかし、どのように評価を考慮に入れるのですか？

何か案は？

ありがとう

python machine-learning recommendation-engine latent-semantic-indexing topic-modeling

2012-10-06T20:31:45.100

0 投票する

1 に答える

720 参照

csv - Stanford Topic Modeling Toolbox の読み取り CSV エラー

Stanford Topic Modeling Toolbox (TMT) を使用して Topic Modeling [0] を試しています。私はScalaの初心者です。ただし、CSV ファイルを読み取ってデータセットを準備できないようです。これが私のコードです

これにより、次のエラーがスローされます

同様に、Tokenizer などの他のデータ前処理関数でもエラーが発生します。これがコードです

上記のコードで受け取ったエラーは次のとおりです。

TMT ホームページ [1] にあるのと同じ CSV ファイルを使用しています。また、スクリプトとデータは同じフォルダーにあります。

どうした？TMT ホームページからまったく同じテスト例を実行できません。

[0] http://nlp.stanford.edu/software/tmt/tmt-0.4/

[1] http://nlp.stanford.edu/software/tmt/tmt-0.4/examples/pubmed-oa-subset.csv

csv nlp stanford-nlp topic-modeling

2012-11-11T13:59:05.177

0 投票する

1 に答える

1846 参照

python - Stream Parse Wiki Xml ダンプ

この質問が以前に尋ねられたかどうかはわかりませんが、見つけられなかったので、私の無知を許してください。約 40 ギグのウィキペディアの xml ダンプを解析 (ストリーム解析) したいと考えています。lxml iterparse aka stream parser を使用してこの仕事をしようとしていますが、書いたコードが何らかの理由で機能しません。やりたいことを説明する前に、この xml 形式について考えてみましょう

上記の xml 構造は、wiki ダンプに非常によく似ていますが、lxml ( xml ツリー全体をメモリにロードせずに (これは不可能です)、正規表現を実行します。まさに私がやりたいことは、現在の「ページ」要素でテキストタグ「Category:Living People」内を探し、そのような一致する正規表現が見つかった場合、「テキスト」タグ内のコンテンツ全体をテキストファイル。しかし、正規表現の前に、lxml パーサー自体に問題があります。以下に試したサンプルコード。前もって感謝します：）

コードを完全に変更して、独自のバージョンを提供してください。問題が解決される限り、私は本当に気にしません!

誰か助けてください！

python xml-parsing lxml wikipedia topic-modeling

2012-12-03T05:35:45.600

0 投票する

0 に答える

1140 参照

r - すべてのパッケージには、R の Labeled-LDA 実装が含まれています

R を使用して教師ありトピックモデルに取り組んでいます。ラベルを持つ数千語のドキュメントがあり、新しいドキュメントにラベルを自動的に割り当てるアプリケーションを設計したいと考えています。Rを使用してアルゴリズムをテストし、最適なものを選択しています。

私の質問は: Labeled-LDA を実装する R パッケージはありますか? ところで: 私はパッケージを試しました: tm、 topicmodel、ldaおよびRTextTools、そして SVM LDA などのいくつかのアルゴリズムを試しました

r lda topic-modeling

2012-12-04T14:45:15.497

0 投票する

1 に答える

990 参照

python - R LDAトピックモデルをTopic Model Visualization Engine (TMVE)にパイプする方法は?

Python でトピックモデルとトピックブラウザを構築するための適切なフレームワークは何ですか?

Topic Model Visualization Engine (TMVE) は、Latent Dirichlet Allocation の結果をパイプして、それらを Web サイトに配置する場合があります。R でトピックモデルライブラリを使用することは既に学習しましたが、それを TMVE にパイプする方法がわかりません。

主に、Python または R を使用するソリューションを探しています。R 出力から独自の (本当にくだらない) トピックブラウザーを構築しようとするかもしれません。

これは 1、2 年ほど前に話題になった研究テーマのようです。David Blei のページのリソースは古くなっているようです。

TMVEは gitHubにあるようです。最後に編集されたのは 1 年前です。

python browser lda topic-modeling

2012-12-14T04:18:36.680

0 投票する

6 に答える

31281 参照

r - RトピックモデルのDocumentTermMatrixから空のドキュメントを削除しますか？

私はRのtopicmodelsパッケージを使用してトピックモデリングを行っています。コーパスオブジェクトを作成し、いくつかの基本的な前処理を行ってから、DocumentTermMatrixを作成しています。

そして、LDAを実行します。

このLDA（）の最後の呼び出しは、エラーを返します

これは、前処理後に用語が含まれていないドキュメントが少なくとも1つあることを意味すると思います。DocumentTermMatrixから用語を含まないドキュメントを削除する簡単な方法はありますか？

topicmodelsパッケージのドキュメントを調べたところ、関数removeSparseTermsが見つかりました。この関数は、どのドキュメントにも表示されない用語を削除しますが、ドキュメントを削除するための類似物はありません。

r lda topic-modeling topicmodels

2012-12-19T01:25:43.583

問題タブ [topic-modeling]

Reference