問題タブ [document-classification]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 指定された単語のWordNetのドメイン名を取得します
WordNetにはドメイン階層があることを知っています:例:sport->football。
1)たとえば、「スポーツ->サッカー」サブドメインに関連するすべての単語を一覧表示することはできますか?
2)特定の単語のドメイン名を取得します(例:「ゴールキーパー」?)
文書分類タスク用です。
machine-learning - コサイン類似度による複数文書クラスタリングの数学的手法
コサイン類似度: 2 つのドキュメントを相互に比較するときによく使用されます。2 つのベクトル間の角度を測定します。値がゼロの場合、2 つのベクトル間の角度は 90 度であり、項を共有しません。値が 1 の場合、2 つのベクトルは大きさを除いて同じです。コサインは、データがまばらで非対称であり、特性が不足しているという類似性がある場合に使用されます。
2 つのベクトル (ドキュメント) にコサインを使用すると、次の表に従って結果が得られます。
次に、その正規化を最後まで取得します。次に、コサイン Cos(v1,v2)= 90% を取得します。
しかし、10個のドキュメントがある場合、それは取得したことを意味します
次に、結果を比較する必要があります。
速い方法はありますか?cos を 10 個以上のドキュメントに取得するにはどうすればよいですか。
2 つのドキュメントの余弦を取得する方法は知っていますが、さらに多くのドキュメントを取得するにはどうすればよいでしょうか? 数学的方法が欲しい。
machine-learning - SKLearn 交差検証:
私はテキスト分類を行っており、トレーニング データに取り込まれていない単語を処理します。つまり、その単語は不明として扱われるべきです。
トレーニング データに存在しない場合、scikit の相互検証が特定の単語を目に見えないものとして扱うかどうかは誰にもわかりませんか?
または、トレーニング セットに含まれていなくても、scikit はすべての単語を機能として扱いますか?
machine-learning - トレーニング セットに教師付き分類のエラー データが含まれている場合はどうすればよいですか?
テキストの自動分類を実行するプロジェクトに取り組んでいます。次のようなデータセットがたくさんあります。
テキスト | 種別名
xxxxx... | AA
yyyyy... | BB
zzzz... | AA
次に、上記のデータセットを使用して分類子を生成します。新しいテキストが来ると、分類子は新しいテキストに正しい CategoryName のラベルを付けることができます (テキストは自然言語で、サイズは 10 ~ 10000 です)。
ここで問題は、元のデータセットに誤ったデータが含まれていることです (たとえば、AAA はカテゴリ AA とラベル付けされるべきですが、誤ってカテゴリ BB とラベル付けされています)。これらのデータは手動で分類されているためです。また、すべてのデータを手動で確認することはできないため、どのラベルが間違っているのか、何パーセントが間違っているのかわかりません...
私の質問は、どうすればいいですか?
- 自動的な方法で間違ったラベルを見つけることはできますか?
- 新しいデータが入ってきたときに精度と再現率を高める方法は?
- 間違ったデータの影響を評価する方法は? (何パーセントのデータが間違っているか分からないので)
- 他の提案はありますか?
python - sklearn.feature_selection の Chi-2 以外の機能選択メトリック
いくつかのテキスト分類タスクで sklearn.svm.SVC を試しています。SVM でモデル化する前に機能選択を実行することは、機能の完全なセットが使用されたときにパフォーマンスが通常ピークに達するため、多少疑問があることを理解しています。これは、異なる機能選択方法がどのように機能をランク付けするかを見ることは、学術的な観点からも興味深いものです。
いろいろ調べてみたところ、sklearn で利用できる機能選択メトリクスは非常に限られていることがわかりました。つまり、Chi-2 です。IG や BNS などの他の一般的に使用されるメトリックが、sklearn.feature_selection.SelectKBest() でスコア関数として直接使用できる sklearn (または他の場所) に実装されているかどうか疑問に思っています。
親切なアドバイスをいただきありがとうございます。
machine-learning - Mallet コマンド ライン プロンプトを使用して適合率と再現率のスコアを報告する方法は?
テキスト分類に Mallet の MaxEnt 分類子を使用しています。Mallet は、コマンド ライン プロンプトを使用して精度と F1 スコアをレポートする機能を提供します。
コマンド ライン プロンプトを使用して適合率と再現率のスコアを報告する方法はありますか?
classification - TFIDF:tfの実装
私は分類ツールを実装しており、さまざまなTFバージョンを試していました。2つの対数(対数呼び出しの内側/外側の補正)、正規化、拡張、および対数平均です。どうやら、これらによって変調された私の分類器の精度には大きな違いがあります-5%もあります。ただし、奇妙なことに、特定のデータセットでどちらが優れているかを事前に言うことはできません。私が見逃している仕事があるのだろうか、あるいは誰かがこれらの仕事の経験を共有できるのだろうか?
android - weka の arff ファイルを作成するには?
私は weka の初心者です。ソーシャル ネットワークからステータスを抽出し、weka を使用してそれらを分析する必要があります。これらのステータスを含む arff ファイルを作成する方法を教えてください。weka にはステミング、ストップワード、n-gram のアルゴリズムが含まれていますか、それとも分類を開始する前に不要なデータを削除するために他のソフトウェアを使用する必要がありますか? そして、AndroidとJavaのwekaのユーティリティは、このソフトウェアの使用に違いがあります...何か考えがありますか
xml - SVMを使用して、「特徴ベクトル」ではなく「特徴マトリックス」の入力でトレーニングサンプルを学習することは可能ですか?
SVMを使用して、「特徴ベクトル」ではなく「特徴マトリックス」の入力でトレーニングサンプルを学習することは可能ですか?各ドキュメントを機能マトリックスとして表すことにより、XMLドキュメントを分類する必要があります。通常、特徴ベクトルは、テキスト分類のためにSVMをトレーニングするために使用されます。ただし、XMLドキュメントを特徴ベクトルとして表すと、構造情報が失われる可能性があります。
前もって感謝します!
java - 簡単な Mahout 分類の例
分類のために魔法使いを訓練したい。私にとって、このテキストはデータベースからのものであり、魔法使いのトレーニングのためにファイルに保存したくありません。MIA ソース コードをチェックアウトし、非常に基本的なトレーニング タスク用に次のコードを変更しました。mahout の例に関する通常の問題は、20 ニュース グループを使用して cmd プロンプトから mahout を使用する方法を示しているか、コードが Hadoop Zookeeper などに大きく依存していることです。モデルをトレーニングしてから使用する方法を示す非常に簡単なチュートリアルに。
現在のところ、次のコードでは、常に null を返すif (best != null)
ため、過去に取得することはありません!learningAlgorithm.getBest();
コード全体を投稿して申し訳ありませんが、他のオプションは表示されませんでした