問題タブ [document-classification]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - ドキュメントの分類
以下の要件に基づいてドキュメントを分類する分類子を教えてください。
分類する文書のセットがあります。分類ラベルごとに、そのクラス ラベルに固有の一連の用語があります。
data-mining - 文書分類を開始するために求められる書籍および記事の参照
私は文書分類に関するプロジェクトを行うことに興味があり、これに関連するテキスト マイニングの理論的な部分に役立つ可能性のある本、または分類された文書 (サブカテゴリを含む) を使用したトレーニング データからデータへの移行プロセスを説明する記事の例を探しています。ドキュメントのクラスを予測するシステム。入手可能な (かなり高価な!) タイトルがいくつかあるようですが、これらは小規模で非常に具体的なトピックに関する記事を含む会議議事録です。テキスト マイニングに関するプロジェクトの優れた理論的基礎を提供するデータ マイニングの文献から、具体的にはドキュメントの分類やこのプロセスの概要を説明した記事を提案してくれる人はいますか?
machine-learning - 品詞 (POS) タグ テキスト分類のための特徴選択
Stanford POS tagger を使って POS タグ文を取得してもらいました。例えば:
/ DT島 / NN だった / VBD とても / RB 綺麗 / JJ . /. I/PRP 愛/VBP それ/PRP ./.
(xml形式も可)
この POS タグの文章から特徴選択を行い、機械学習手法を使用してテキスト分類用の特徴ベクトルに変換する方法を説明できる人はいますか。
algorithm - タグでドキュメントを分類する
分類したいドキュメント(主にPDFとドキュメント)が大量にあるので、特定のタグに従ってそれらを検索できます。これらのタグは、私自身のもの(タグをドキュメントに配置)またはテキストから抽出したもののいずれかです。
これに関連する投稿(Apache Mahoutを使用してデータを分類する)を見たばかりですが、おそらくもっと単純なものがあります。
data-mining - テキスト分類ツール
テキスト分類について学ぶことに興味があるので、理論を読んでいます。次のステップは何かをすることなので、さまざまなツールを探しています。一部のリンクはWEKAを指していますが、このタスクにはMalletの方が適しているようですが、このツールへのリンクはありません。「真剣な」プロジェクトに取り組みたい場合、Mallet を避ける理由はありますか? Mallet を使用していくつかの分類器をすばやくトレーニングしてテストすることができましたが、WEKA を使用すると、フィルターを使用して、テキストのカテゴリで名前が付けられたマップ内のテキストファイルを変換した後、ラベルが「消える」という問題が発生しました。
cluster-analysis - テキスト分類、前処理あり
時間が要因ではなく、クラスの数がわからない場合、ドキュメント分類に最適な方法はどれですか?
classification - SVMlightは分類スコアを出力しますか?
SVMlightが分類スコアを出力するかどうかを知る必要があります。どこにも見つかりませんでした。たとえばlibSVMdoes.thx
nlp - テキスト分類にsvm.netでロイター-21578データセットを使用する方法は?
テキスト分類の申請を始めたばかりで、このトピックに関する論文をたくさん読んだのですが、今までどうやって始めたらいいのかわからず、全体像がわからない気がします。トレーニングデータセットとその説明を読み、SVMアルゴリズム(SVM.Net)の優れた実装を取得しましたが、この実装でそのデータセットを使用する方法がわかりません。データセットのテキストから特徴を抽出し、これらの特徴をSVMへの入力として使用する必要があることを知っているので、テキストの特徴を抽出してSVMアルゴリズムへの入力として使用する方法についての詳細なチュートリアルについて教えてください。新しいテキストを分類するためのこのアルゴリズム?そして、テキスト分類にSVMを使用することについての完全な例があれば、それは素晴らしいことです。
どんな助けでもいただければ幸いです。前もって感謝します。
bayesian - Naive Bayes を使用して TF_IDF 機能の重み付けを実装する方法
感情分析のために単純ベイズ分類器を実装しようとしています。TF-IDF 重み付けメジャーを使用する予定です。私は今ちょっと立ち往生しています。NB は通常、単語 (機能) の頻度を使用して最尤法を見つけます。では、ナイーブ ベイズに TF-IDF 重み付け測定を導入するにはどうすればよいでしょうか。
algorithm - 気分による文のバケット化
簡単な問題から始めましょう。350 文字のセンテンスがあり、そのセンテンスを「機嫌が良い」バケットまたは「機嫌が悪い」バケットのいずれかに分類したいとします。
文をバケット化するアルゴリズムを設計する最良の方法は何ですか?