問題タブ [document-classification]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
svm - 特徴選択後に特徴ベクトルを再正規化する
デフォルトで正規化されたベクトルを生成するsklearn.feature_extraction.text.TfidfVectorizerを使用して、すでに TF*IDF 特徴ベクトルに変換されているトレーニング ドキュメントで χ² 特徴選択を実行しました。ただし、上位 K 個の最も有益な機能を選択した後、次元が削除されるため、ベクトルは正規化されなくなります (すべてのベクトルの長さが 1 未満になりました)。
特徴選択後に特徴ベクトルを再正規化することをお勧めしますか? また、B/T 正規化とスケーリングの主な違いもよくわかりません。それらは、SVC などの学習者に対して同様の目的を果たしますか?
あなたの親切な答えを前もってありがとう!
java - テキスト分類分類子
優れたオープンソースのテキスト分類モデルを知っている人はいますか?スタンフォード分類器、ウェカ、マレットなどについて知っていますが、それらはすべてトレーニングが必要です。
ニュース記事をスポーツ/政治/健康/ゲームなどに分類する必要があります。事前にトレーニングされたモデルはありますか?
Alchemy、OpenCalaisなどはオプションではありません。オープンソースツール(できればJava)が必要です。
python - csr_matrixでgensimコーパス変数をどのように初期化しますか?
私は、scikit の tfidf ベクトライザーを使用して取得した csr_matrix として X と、配列である y を持っています。
私の計画は LDA を使用して機能を作成することですが、X を csr_matrix として使用して gensim のコーパス変数を初期化する方法を見つけることができませんでした。つまり、大量のメモリを消費し、コンピューターがハングする可能性があるため、gensim のドキュメントに示されているようにコーパスをダウンロードしたり、X を密行列に変換したりしたくありません。
要するに、私の質問は次のとおりです。
- コーパス全体を表す csr_matrix (スパース) がある場合、gensim コーパスをどのように初期化しますか?
- LDA をどのように使用して特徴を抽出しますか?
nltk - NLTK と scikit-learn のベルヌーイ ナイーブ ベイズで結果が異なる
NLTK の Bernoulli Naive Bayes アルゴリズムと scikit-learn モジュールのアルゴリズムを使用して (2 つのカテゴリのみで) テキストを分類すると、まったく異なる結果が得られます。全体的な精度は 2 つの間で同等ですが (まったく同じではありません)、タイプ I とタイプ II のエラーの違いは重要です。特に、NLTK Naive Bayes 分類器は Type II エラーよりも Type I エラーを多く与えますが、scikit-learn は逆です。この「異常」は、さまざまな機能やさまざまなトレーニング サンプルで一貫しているようです。これには理由がありますか?2つのうち、どちらがより信頼できますか?
postgresql - データベース内のテキスト ドキュメントをクラスタ化する
20.000 個のテキスト ファイルが PostgreSQL データベースにロードされてdocs
います。doc_id
doc_content
約8種類の書類があることがわかっています。ここに私の質問があります:
- これらのグループを見つけるにはどうすればよいですか?
- 使用できる類似性、非類似性の尺度はありますか?
- PostgreSQL に最長共通部分文字列の実装はありますか?
- PostgreSQL にテキスト マイニング用の拡張機能はありますか? (私はTsearchしか見つけていませんが、これは 2007 年に最後に更新されたようです)
おそらくいくつかlike '%%'
またはSIMILAR TO
を使用できますが、より良いアプローチがあるかもしれません。
python - ドキュメントの分類方法を改善する
ニュース記事が特定のトピックに関するものかどうかを予測するプログラムがあります。
主なスクリプトは 2 つあります。
1) bow_train.py - 単語リストとモデルを生成し、2 つのファイル (arab.model と wordList.pkl) に保存します。
2) bow_predict.py - 単語リストとモデルを使用して未知の記事を分類します
使用される方法は、サポート ベクター マシンの代わりにロジスティック回帰です。これは、この種の分類に対するロジスティック回帰のパフォーマンスがはるかに優れていると考えられるためです。
成績を上げたい。特定のキーワードを強調できる別の方法はありますか。たとえば、トピック「アラブの春」の場合、[「抗議」、「不安」、「革命」などのキーワードのリストを入力すると、これらのキーワードを含むファイルは、含まないものよりも確率が高くなります。
bow_predict.py
bow_train.py
python - コンテンツの類似性に応じて文書を格子状に並べる
ドキュメントをスペース (複数のグリッドなど) に配置して、ドキュメントが配置されている位置に他のドキュメントとの類似性に関する情報が含まれるようにするにはどうすればよいでしょうか。K-means クラスタリングを調べましたが、データが大きい場合は計算量が少し多くなります。ドキュメントの内容をハッシュするようなものを探しています。これにより、ドキュメントが大きなスペースに収まるようになり、類似したドキュメントは同様のハッシュを持ち、それらの間の距離が短くなります。この場合、余分な作業をしなくても、特定のドキュメントに類似したドキュメントを簡単に見つけることができます。
結果は、下の図のようになります。この場合、音楽のドキュメントは映画のドキュメントに近く、コンピューターに関するドキュメントとはかけ離れています。ボックスはドキュメントの全世界と見なすことができます。
どんな助けでも大歓迎です。
ありがとう
jvc007
classification - 特徴ベクトル: トレーニングとテスト セットの重みの計算
サポート ベクター マシンを使用してテキスト分類を行っていますが、基本的にテスト セットの特徴ベクトルの計算について混乱しています。
特徴ベクトルをトレーニングするために、各トレーニング データの TF-IDF ベクトルを取得し、TF-IDF 値を使用して特徴マトリックス [docs x terms] を構築しました。
しかし、テスト セットの特徴ベクトルを計算するのはどうでしょうか。トレーニング セットの TF-IDF 値を使用して計算する必要がありますか?
例: 特定の単語「リンゴ」のトレーニング セットでは、ドキュメント頻度は 5 です。テスト セットでは、「リンゴ」に値 5 を使用する必要がありますか? または、テスト セットに基づいて TF-IDF を再計算しますか?? むしろ、特徴ベクトルを計算する際に間違った方向に進んでいますか??
前もって感謝します!