問題タブ [topic-modeling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sparse-matrix - 疎行列の pLSA 実装
Thomas Hoffman (1999) によって提案された pLSA アルゴリズムを実装しようとしています。ただし、私が見つけたすべての実装では、入力された term-doc マトリックスがスパースではなく完全であると見なされます。私の入力行列は非常に大きくて疎なので、疎性をサポートするアルゴリズムを見つけたいと思います。見つけるのを手伝ってくれませんか?Matlab または Java が推奨されます。
更新 PennAspect http://www.cis.upenn.edu/~ungar/Datamining/software_dist/PennAspect/index.html が実際にスパース行列入力で PLSA を実装していることがわかりました。
解決策は簡単です。2D 不規則配列 (各行の長さが同じではない配列) を使用して、疎行列を表すことができます。
mahout - Mahout LDA テスト データ セットのトピックを予測する方法は?
Apache Mahout の Web サイトhttps://cwiki.apache.org/MAHOUT/latent-dirichlet-allocation.htmlから、LDA モデルを適合させ、計算されたトピックを P("word" の形式で出力する手順を確認できます。 |「トピック番号」)。ただし、トピックの分布を予測するために、トレーニング済みのモデルをテスト データに適用する方法に関する情報はありません。それとも、条件付き確率の出力を使用してテスト データ セットからトピックを見つける独自のプログラムを作成する必要がありますか?
python - トピックベースのテキストとユーザーの類似性
トピック表現を使用して、ユーザーとテキスト ドキュメント間の類似性を計算したいと考えています。つまり、各ドキュメントとユーザーは、トピック (神経科学、テクノロジーなど) のベクトルと、そのトピックがユーザー/ドキュメントにどの程度関連しているかによって表されます。
私の目標は、これらのベクトル間の類似性を計算して、類似したユーザー、記事、推奨記事を見つけることです。
Pearson Correlation を使用しようとしましたが、約 40k の記事に達し、ベクトルの長さが約 10k になると、メモリと時間がかかりすぎてしまいます。
私はnumpyを使用しています。
これを行うためのより良い方法を想像できますか? それとも(単一のマシン上で)避けられないのですか?
ありがとうございました
tagging - 自動トピックタグ付け用の MALLET - トレーニングデータ付き
すでにタグ付けした文書のコーパスがあります。さまざまなトピックに関連する約 400 個のタグのリストを修正しました。各ドキュメントは、1 つ以上のタグと短いタイトルでタグ付けされています。(私はタイトルのより大きなリストも持っています - ドキュメントに非常に類似したコンテンツが含まれている場合、私はしばしば再利用します)
既存のドキュメントにタグを付けた方法に基づいて、コーパスに追加する新しいドキュメントのタグ/タイトルを (既存のリストから) 提案するインターフェイスを作成したいと考えています。
既存のタグ付きデータがない場合にテキストを分析するのに最適な、確率論的トピック モデル LDA クラスについて読んだことがあります。しかし、既存の作品を組み込む方法がわかりません。
任意の提案をいただければ幸いです。
敬具
スワミ
python - トピックベースのレコメンダーシステムのユーザープロファイリング
関連するテキストドキュメントをユーザーに提案するために、トピックベースのレコメンダーシステムを考え出そうとしています。
ウィキペディアのコーパスで、gensimを使用して潜在意味索引付けモデルをトレーニングしました。これにより、ドキュメントをLSIトピックディストリビューションに簡単に変換できます。私の考えは、ユーザーを同じように表現することです。ただし、もちろん、ユーザーには記事の閲覧履歴と記事の評価があります。
だから私の質問は:ユーザーをどのように表現するのですか?
私が持っていたアイデアは次のとおりです。表示されたすべてのドキュメントの集合体としてユーザーを表します。しかし、どのように評価を考慮に入れるのですか?
何か案は?
ありがとう
csv - Stanford Topic Modeling Toolbox の読み取り CSV エラー
Stanford Topic Modeling Toolbox (TMT) を使用して Topic Modeling [0] を試しています。私はScalaの初心者です。ただし、CSV ファイルを読み取ってデータ セットを準備できないようです。これが私のコードです
これにより、次のエラーがスローされます
同様に、Tokenizer などの他のデータ前処理関数でもエラーが発生します。これがコードです
上記のコードで受け取ったエラーは次のとおりです。
TMT ホームページ [1] にあるのと同じ CSV ファイルを使用しています。また、スクリプトとデータは同じフォルダーにあります。
どうした?TMT ホームページからまったく同じテスト例を実行できません。
[0] http://nlp.stanford.edu/software/tmt/tmt-0.4/
[1] http://nlp.stanford.edu/software/tmt/tmt-0.4/examples/pubmed-oa-subset.csv
python - Stream Parse Wiki Xml ダンプ
この質問が以前に尋ねられたかどうかはわかりませんが、見つけられなかったので、私の無知を許してください。約 40 ギグのウィキペディアの xml ダンプを解析 (ストリーム解析) したいと考えています。lxml iterparse aka stream parser を使用してこの仕事をしようとしていますが、書いたコードが何らかの理由で機能しません。やりたいことを説明する前に、この xml 形式について考えてみましょう
上記の xml 構造は、wiki ダンプに非常によく似ていますが、lxml ( xml ツリー全体をメモリにロードせずに (これは不可能です)、正規表現を実行します。まさに私がやりたいことは、現在の「ページ」要素でテキストタグ「Category:Living People」内を探し、そのような一致する正規表現が見つかった場合、「テキスト」タグ内のコンテンツ全体をテキストファイル。しかし、正規表現の前に、lxml パーサー自体に問題があります。以下に試したサンプルコード。前もって感謝します :)
コードを完全に変更して、独自のバージョンを提供してください。問題が解決される限り、私は本当に気にしません!
誰か助けてください!
r - すべてのパッケージには、R の Labeled-LDA 実装が含まれています
R を使用して教師ありトピック モデルに取り組んでいます。ラベルを持つ数千語のドキュメントがあり、新しいドキュメントにラベルを自動的に割り当てるアプリケーションを設計したいと考えています。Rを使用してアルゴリズムをテストし、最適なものを選択しています。
私の質問は: Labeled-LDA を実装する R パッケージはありますか?
ところで: 私はパッケージを試しました: tm
、 topicmodel
、lda
およびRTextTools
、そして SVM LDA などのいくつかのアルゴリズムを試しました
python - R LDAトピックモデルをTopic Model Visualization Engine (TMVE)にパイプする方法は?
Python でトピック モデルとトピック ブラウザを構築するための適切なフレームワークは何ですか?
Topic Model Visualization Engine (TMVE) は、Latent Dirichlet Allocation の結果をパイプして、それらを Web サイトに配置する場合があります。R でトピックモデル ライブラリを使用することは既に学習しましたが、それを TMVE にパイプする方法がわかりません。
主に、Python または R を使用するソリューションを探しています。R 出力から独自の (本当にくだらない) トピック ブラウザーを構築しようとするかもしれません。
これは 1、2 年ほど前に話題になった研究テーマのようです。David Blei のページのリソースは古くなっているようです。
TMVEは gitHubにあるようです。最後に編集されたのは 1 年前です。
r - RトピックモデルのDocumentTermMatrixから空のドキュメントを削除しますか?
私はRのtopicmodelsパッケージを使用してトピックモデリングを行っています。コーパスオブジェクトを作成し、いくつかの基本的な前処理を行ってから、DocumentTermMatrixを作成しています。
そして、LDAを実行します。
このLDA()の最後の呼び出しは、エラーを返します
これは、前処理後に用語が含まれていないドキュメントが少なくとも1つあることを意味すると思います。DocumentTermMatrixから用語を含まないドキュメントを削除する簡単な方法はありますか?
topicmodelsパッケージのドキュメントを調べたところ、関数removeSparseTermsが見つかりました。この関数は、どのドキュメントにも表示されない用語を削除しますが、ドキュメントを削除するための類似物はありません。