問題タブ [text-classification]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - テキスト分類 - 決定に最も影響を与えた機能を見つける方法
SVMlight
フレーズを肯定的または否定的に分類するために使用する場合LIBSVM
(感情分析)、アルゴリズムの決定に影響を与えた最も影響力のある単語を特定する方法はありますか? たとえば、単語"good"
がフレーズを肯定的に判断するのに役立つことがわかった、など。
machine-learning - Weka で機能削減方法を適用するにはどうすればよいですか?
1) テキスト分類のために weka で LSI などの機能削減方法を適用するにはどうすればよいですか?
2) LSI などの機能削減手法を適用すると、分類の精度が向上しますか?
machine-learning - Weka分類器で重要度によって機能をランク付けする方法は?
私は Weka を使って分類器をうまく構築しています。自分の機能がどれほど効果的または重要かを評価したいと思います。これには AttributeSelection を使用します。しかし、さまざまな機能を対応する重要性とともに出力する方法がわかりません。情報獲得スコアの降順で機能を単純にリストしたい!
nlp - テキスト分類 - ステマーを使用すると結果が低下しますか?
アラビア語の感情分析に関する記事があります。
5ページ目の冒頭に次のように書かれています。
「実験では、特徴抽出と分類の前に単語をステミングすると、ほとんどの場合、結果が低下することも示されています」.
同じページの後半で、彼らは次のように述べています。
「...単語のステミングには、アラビア語のライト ステマーが使用されます」
ええと、ステマー/レンマタイザーは常にテキスト分類の前に使用されると思っていましたが、なぜ彼はそれが結果を劣化させると言っているのですか?
ありがとう :)
ruby - バイグラムを分類するにはどうすればよいですか?
現在、Classifier gem を使用してテキストを正常に分類しています。「 Ruby でのベイズ分類」チュートリアルに従ったところ、すべて正常に動作しました。2 つのファイルがあります。1 つは「positive_tweets.yml」という名前で、次のようなツイートが含まれています。
- 「こんにちは、元気です。元気です」
- 「私はポジティブなツイートです」
および「negative_tweet.yml」
- 「今日は本当に天気が悪いです」
- 「交通事故に遭ったばかり」
「私は今日は元気です」を分類するために、まず分類子を次のようにトレーニングします。
次に、「I'm good today」というテキストを次のように分類します。
私が理解しているように、これは基本的にユニグラムレベルで機能しています。また、これを次のレベル、バイグラムと n グラムを潜在的に分類するレベルに引き上げたいと考えています。
以下を使用して、テキストのバイグラム配列を作成するところまで来ました。
classify
ただし、メソッドが配列を取らないため、ここから続行する方法がわかりません。文字列が必要です。
machine-learning - より高い分類精度につながる可能性のある間違いはありますか?
私は 20NewsGroup データセットでテキスト分類を行っており、20NewsGroup_ByDate データセットを使用しました。ここで提供されている語幹の付いたドキュメントを抽出します
http://web.ist.utl.pt/~acardoso/datasets/
weka の分類に tf-idf 変換、情報ゲイン機能の選択、および Naive Bayes を適用しました。私の結果は、上記のページに記載されている結果 (82%) よりも高くなっています。私は多くのことを考え、私が犯した可能性のある間違いを検索しましたが、処理されたドキュメントを使用しているため、何も見つけることができませんでした.
tf-idf,IG と分類器を適用するだけです。予想よりも高い精度をもたらす可能性のある間違いの可能性について、洞察を提供してください。