問題タブ [mallet]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
text-mining - トピック モデルに適した Mallet クラス
Java のプロジェクトでMalletライブラリを使用しています。
それぞれ 400 個のトークンを持つ 15,000 個のドキュメントがあります。使ってみParallelTopicModel
ました。しかし、単一のトークンとトークンのシーケンスの両方を含む一連のトピックが必要です (たとえば、「Java」と「Java 開発者」)。
LDA-HMMの使用を検討しています。どのクラスのマレットを使用できますか?
次に、すべてのトピックをベイジアン ネットワークのノードに変換し、トークンまたは一連のトークンを証拠として受け取り、推論を行います。そのためにどのJavaライブラリを使用できますか?
前もって感謝します。フランチェスコ
java - マレットでターゲットアルファベットを変更する:アルファベットが一致しない
マレットの開発者リストから助けを得るのに苦労しているので、ここで試しています。
ターゲットアルファベットが{A、B、C}のInstancesListがあり、別の分析のためにターゲットアルファベットを{A、NOT_A}に変更する必要があります。
これまでのところ、私は次のコード(他のMalletソースコードから適応)を持っていますが、私は取得し続けます:
アルファベットが一致しません:インスタンス:[5976、null]、InstanceList:[5976、2]
ターゲットアルファベットを{A、B、C}から{A、NOT_A}に変更する方法について誰か提案がありますか?
classification - mallet での分類器のトレーニング
次の形式の製品名、製品のレビューのcsvファイルがあります
今、マレットを使用して、製品レビューを含むテストデータセットが入力として与えられた場合、特定のレビューがどの製品に属しているかを教えてくれるように、分類器をトレーニングする必要があります
mallet Java APIのヘルプをいただければ幸いです
user-interface - マレットにはGUIがありますか?
マレットのGUIを見た人はいますか?
ありがとう
java - エラー:メインクラスの言語を読み込めない、または見つけることができませんでした
マレットは初めてです
コンピューターにMalletをインストールしました。クラスパスを正しく設定しました(クラスパスを印刷して確認しました)
次のコマンドを実行したいmalletimport-smvlightfile1 file2.mallet
コマンドを実行しようとするたびに、「エラー:メインクラスの言語が見つからないかロードできませんでした」というエラーが表示されます。
誰かが同じことで私を助けてくれますか?私はこれに深刻な問題を抱えています。
tagging - 自動トピックタグ付け用の MALLET - トレーニングデータ付き
すでにタグ付けした文書のコーパスがあります。さまざまなトピックに関連する約 400 個のタグのリストを修正しました。各ドキュメントは、1 つ以上のタグと短いタイトルでタグ付けされています。(私はタイトルのより大きなリストも持っています - ドキュメントに非常に類似したコンテンツが含まれている場合、私はしばしば再利用します)
既存のドキュメントにタグを付けた方法に基づいて、コーパスに追加する新しいドキュメントのタグ/タイトルを (既存のリストから) 提案するインターフェイスを作成したいと考えています。
既存のタグ付きデータがない場合にテキストを分析するのに最適な、確率論的トピック モデル LDA クラスについて読んだことがあります。しかし、既存の作品を組み込む方法がわかりません。
任意の提案をいただければ幸いです。
敬具
スワミ
machine-learning - マレットトレーニングモデルロード
以前に訓練されたモデルをロードすることに運があった人はいますか?APIを見ると、CRFWriterクラスはパズルの1/2ですが、CRFRead(クラスは存在しません)はどの程度正確ですか?
助けてくれてありがとう。
java - Folding in (estimating topics for new documents) in LDA using Mallet in Java
I'm using Mallet through Java, and I can't work out how to evaluate new documents against an existing topic model which I have trained.
My initial code to generate my model is very similar to that in the Mallett Developers Guide for Topic Modelling, after which I simply save the model as a Java object. In a later process, I reload that Java object from file, add new instances via .addInstances()
and would then like to evaluate only these new instances against the topics found in the original training set.
This stats.SE thread provides some high-level suggestions, but I can't see how to work them into the Mallet framework.
Any help much appreciated.
machine-learning - Mallet コマンド ライン プロンプトを使用して適合率と再現率のスコアを報告する方法は?
テキスト分類に Mallet の MaxEnt 分類子を使用しています。Mallet は、コマンド ライン プロンプトを使用して精度と F1 スコアをレポートする機能を提供します。
コマンド ライン プロンプトを使用して適合率と再現率のスコアを報告する方法はありますか?
pos-tagger - マレットCRFSimpleTaggerフレーズ/マルチワード
私はマレットの初心者です。マレットシンプルタガー/CRFを使用してフレーズを試しています。マレットサイトでドキュメントを検索し、ユーザーアーカイブも調べましたが、何の役にも立ちませんでした。
簡単なタグ付けのために木槌をトレーニングしてみましたが、それはうまく機能します。私のデータは次のようになります(トレーニング間には異なるセットであることを示す改行があることに注意してください)
サンプルトレーニングデータ:
私が抱えている問題は、都市名が複数の単語である場合です、と言います
上記のトレーニングデータでは、「新規」はストップワードの質問であることに注意してください。
- Simple taggerの場合、上記の表現は問題ありませんか?そうでない場合、どのように私は薬局を表すのですか?
- SimpleTagger/CRFが前の「n」の単語を使用してタグに到達できるようにデータを表現する方法がない場合はどうでしょうか。つまり、私の入力のチャンクのようなもの