問題タブ [mallet]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - マレットでのCRFの整数値機能の処理
マレットでSimpleTaggerクラスを使い始めたところです。私の印象では、バイナリ機能を期待しています。私が実装したいモデルには正の整数値の機能があり、これをマレットでどのように実装するのか疑問に思います。また、モデルが意味をなすためには、非バイナリ機能を正規化する必要があると聞きました。これを行う方法についての提案をいただければ幸いです。
ps。はい、専用のマレットメールリストがあることは知っていますが、サブスクリプションが承認されてそこに投稿できるようになるまで、もう1日近く待っています。私はただ急いでいます。
nlp - マレットを使用したトピックモデリング
Mallet でトピック モデリングを使用しようとしていますが、質問があります。
モデルをいつ再構築する必要があるかを知るにはどうすればよいですか? たとえば、Web からクロールしたこの量のドキュメントがあり、Mallet が提供するトピック モデリングを使用して、モデルを作成し、それを使用してドキュメントを推測できる可能性があります。しかし、時間の経過とともに、私がクロールした新しいデータにより、新しい主題が現れる可能性があります. その場合、モデルを最初から現在まで再構築する必要があるかどうかはどうすればわかりますか?
毎月クロールするドキュメントに対してそうしようと考えていました。誰かアドバイスしてもらえますか?
したがって、トピック モデリングは、一定量のトピック (入力パラメーター k、トピック数) の下のテキストにより適しています。そうでない場合、使用する番号を実際にどのように決定しますか?
nlp - 潜在的ディリクレ配分 (MALLET) に関する質問
正直なところ、私は LDA に詳しくありませんが、プロジェクトの 1 つで MALLET のトピック モデリングを使用する必要があります。
私の質問は: トピック モデルのトレーニング データとして特定のタイムスタンプ内の一連のドキュメントが与えられた場合、ドキュメント + または - トレーニング データのタイムスタンプについて、トピックの傾向を追跡するために (推論を使用して) モデルを使用することはどの程度適切ですか? . つまり、MALLET が提供するトピックの分布は、モデル構築段階で分析が必要なデータセットのサブセットのみを提供する場合、トピックの人気を経時的に追跡するための適切なメトリックであるかということです。
ありがとう。
nlp - lda 推論について
現在、MALLET パッケージの LDA トピック モデリング ツールを使用して、ドキュメントのトピック検出を行っています。最初はすべて順調で、そこから 20 のトピックを取得しました。ただし、モデルを使用して新しいドキュメントを推測しようとすると、結果はちょっと不可解です。
たとえば、トピック「FLU」の 1 つからのキーワードのみを含む手動で作成したドキュメントに対して意図的にモデルを実行しましたが、取得したトピック分布はすべてのトピックで <0.1 でした。次に、トピックの 1 つで 0.7 の高いスコアを持つ既にサンプリングされたドキュメントの 1 つで同じことを試します。再び同じことが起こりました。
誰かが理由について手がかりを与えることができますか?
MALLET メーリング リストで質問してみましたが、どうやら誰も返信がありません。
java - マレットにおけるトピックモデリング; ドキュメンテーション
マレット、特にトピックモデリングに関連するクラスのためのいくつかの良いドキュメントを探しています。私はJavaのドキュメントを見てきましたが、あまり役に立ちません。例えば:
この方法が何をするのかまだわかりません(もしそうなら私に知らせてください...)。また、マレットの経験があり、トピックモデル(またはトピックを表す単語グループ)によって学習されたトピックを印刷するのを手伝ってくれる場合は、私に知らせてください。すべてのアドバイスを歓迎します!
getTopWordsメソッドを見たことがありますが、呼び出すことができませんでした...おそらく行方不明のjarファイルですか?
java - マレットトピックモデリング
私は、100,000行(マレット形式で約34 MB)を含むテキストファイルのトピックを推測するためにマレットを使用しています。しかし今、私はそれを百万行(約180MB)を含むファイルで実行する必要があり、java.lang.outofmemory例外が発生しています。ファイルを小さなファイルに分割し、結合されたすべてのファイルに存在するデータのモデルを構築する方法はありますか?前もって感謝します
machine-learning - Mallet CRF SimpleTagger パフォーマンス チューニング
Java ライブラリ Mallet の SimpleTagger クラスを Conditional Random Fields (CRF) に使用したことがある方への質問です。使用可能な最大数の CPU に対してマルチスレッド オプションを既に使用しているとします (これがその場合です)。どこから始めればよいでしょうか?また、より高速に実行する必要がある場合は、どのようなことを試せばよいでしょうか?
関連する質問として、トレーニング プロセスを高速化する、確率的勾配降下法に似た方法があるかどうかという質問があります。
私がやりたいトレーニングのタイプは単純です。
(機能は、自分のコードでデータに対して行った処理の出力です。)
Mallet 以外の CRF 分類子をほぼ機能させるのに問題がありましたが、もう一度バックトラックして他の実装の 1 つを再検討するか、新しい実装を試す必要があるかもしれません。
java - Mallet: 各予測に対する機能の寄与
CRF を使用して Mallet で NER システムを開発しています。
各予測の機能の寄与を収集できるかどうか知っていますか? CRF モデルの正確な動作を知り、理解する必要があります。
助言がありますか?
ありがとう。
乾杯、ウクライナ
java - Mallet Java APIを使用したトピックモデリング?
こんにちは、Mallet Java API を使用してトピック モデリングを行う必要がありますが、コーディングは初めてなので、Java ライブラリを理解して使用するのは本当に難しいと感じています。構築に使用できる API を使用してトピック モデリングを行うサンプル コードを持っている人はいますか?
java - Java用マレットAPIを使用したトピックモデリング
こんにちは私はMalletJavaAPIを使用してトピックモデリングを行う必要がありますが、Malletを初めて使用するため、Malletライブラリを理解して使用するのは非常に難しいと感じています。ライブラリを理解するためのトピックモデリングのためのソースコードがあるかもしれない場所を誰かが知っていますか?