問題タブ [text-classification]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
weka - Weka で品詞タグ付きデータを利用するにはどうすればよいですか?
各単語の品詞が単語の後に定義されるように、教授によって処理された 20,000 ツイートのデータ セットがあります... この投稿のタグ付けは、Penn Treebank プロジェクトからのものです。ここにいくつかの例文があります:
最初の文字は文の分類であり、文内の各単語にはその位置がタグ付けされています。
Weka には、データを読み込むときに pos 解析機能がありますか? 今のところ、pos タグを取り除いて利用していませんが、分類器の精度を高めるのに非常に役立つと思います。
ありがとう!
text - sklearn または既存のモジュールを使用してテキストをクラスター化し、各クラスターがマルチラベルに属するようにします
このようなデータがあります
それらをクラスター化して、それぞれに複数のラベルを付けたいと思います。既存のツールを使用することは可能ですか?自分で実装するには十分な時間がありません。どうもありがとう!!
twitter - Naive Bayes Classifier は語彙全体を知る必要がありますか?
basketball
ツイートを 2 つのカテゴリ (例:と)に分類しようとしていますnon-basketball
。明らかに、データセットは動的です。つまり、ドキュメント コレクションは一連のN
ドキュメント (つまり、ツイート) に固定されていません。Twitter をクロールしている間、データセットは何度も拡大しています。
適用を試みる必要があるのは、テキスト分類に広く使用されている Naive Bayes 分類器です。ここ に 説明 が あります. しかし、まだ1つの疑問が残っています。
トレーニング セットから開始してモデルを計算できます (語彙はトレーニング セットに含まれる用語で構成されていると述べていV
ます)。V
ここで、存在しない用語 (つまり、トレーニング セットに表示されなかった用語)を含む、未分類の新しいツイートを収集できます。単純ベイズ分類器はまだ適用できますか?
質問を一般化する: 単純ベイズ分類器は、語彙が完全には知られていない場合に適用できますか?
前もって感謝します。
nlp - 名詞が人なのか、場所なのか、物なのか、どうやって見分けるのですか?
テキストを分類して、名詞を人、場所、または物にマッピングしようとしています。それを行う方法または辞書はありますか?
r - R を使用した階層予測
私はRでかなり新しいので、次のことができるパッケージに関する情報を見つけることができませんでした:いくつかのクラスを持つことができる一連のデータ(たとえば、異なるテキストドキュメント)があると仮定します。
たとえば、データムは、Sport、Sport with Ball、Sport without Ball、および Car である可能性があります。データムがボールのあるスポーツであるとヒットしない可能性があることを考慮して、データがどのカテゴリに属するかを予測できるようにしたいのですが、それがスポーツであると正しく予測できれば幸いです。
この種のものを提供できるパッケージはどれですか? 可能であれば、いくつかの例が役立ちます。
前もって感謝します
twitter - ツイートの分類
私は機械学習を始めようとしているので、ツイートのテキスト分類を試してみたかったのです。ツイートの小さなサンプルを収集しましたが、教師あり学習を実行するには、収集したツイートの一部に手作業でラベルを付ける必要があります。データをスケールアップするとき、これは骨の折れる作業です。
大量のツイートに手動でラベルを付けずに分類を実行する方法はありますか? それとも、このタスクには教師なし学習の方が適していますか?