問題タブ [text-classification]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
302 参照

weka - Weka で品詞タグ付きデータを利用するにはどうすればよいですか?

各単語の品詞が単語の後に定義されるように、教授によって処理された 20,000 ツイートのデータ セットがあります... この投稿のタグ付けは、Penn Treebank プロジェクトからのものです。ここにいくつかの例文があります:

最初の文字は文の分類であり、文内の各単語にはその位置がタグ付けされています。

Weka には、データを読み込むときに pos 解析機能がありますか? 今のところ、pos タグを取り除いて利用していませんが、分類器の精度を高めるのに非常に役立つと思います。

ありがとう!

0 投票する
1 に答える
85 参照

text - sklearn または既存のモジュールを使用してテキストをクラスター化し、各クラスターがマルチラベルに属するようにします

このようなデータがあります

それらをクラスター化して、それぞれに複数のラベルを付けたいと思います。既存のツールを使用することは可能ですか?自分で実装するには十分な時間がありません。どうもありがとう!!

0 投票する
2 に答える
1062 参照

twitter - Naive Bayes Classifier は語彙全体を知る必要がありますか?

basketballツイートを 2 つのカテゴリ (例:と)に分類しようとしていますnon-basketball。明らかに、データセットは動的です。つまり、ドキュメント コレクションは一連のNドキュメント (つまり、ツイート) に固定されていません。Twitter をクロールしている間、データセットは何度も拡大しています。

適用を試みる必要があるのは、テキスト分類に広く使用されている Naive Bayes 分類器です。ここ に 説明 が あります. しかし、まだ1つの疑問が残っています。

トレーニング セットから開始してモデルを計算できます (語彙はトレーニング セットに含まれる用語で構成されていると述べていVます)。Vここで、存在しない用語 (つまり、トレーニング セットに表示されなかった用語)を含む、未分類の新しいツイートを収集できます。単純ベイズ分類器はまだ適用できますか?

質問を一般化する: 単純ベイズ分類器は、語彙が完全には知られていない場合に適用できますか?

前もって感謝します。

0 投票する
3 に答える
700 参照

nlp - 名詞が人なのか、場所なのか、物なのか、どうやって見分けるのですか?

テキストを分類して、名詞を人、場所、または物にマッピングしようとしています。それを行う方法または辞書はありますか?

0 投票する
1 に答える
1086 参照

r - R を使用した階層予測

私はRでかなり新しいので、次のことができるパッケージに関する情報を見つけることができませんでした:いくつかのクラスを持つことができる一連のデータ(たとえば、異なるテキストドキュメント)があると仮定します。

たとえば、データムは、Sport、Sport with Ball、Sport without Ball、および Car である可能性があります。データムがボールのあるスポーツであるとヒットしない可能性があることを考慮して、データがどのカテゴリに属する​​かを予測できるようにしたいのですが、それがスポーツであると正しく予測できれば幸いです。

この種のものを提供できるパッケージはどれですか? 可能であれば、いくつかの例が役立ちます。

前もって感謝します

0 投票する
2 に答える
252 参照

twitter - ツイートの分類

私は機械学習を始めようとしているので、ツイートのテキスト分類を試してみたかったのです。ツイートの小さなサンプルを収集しましたが、教師あり学習を実行するには、収集したツイートの一部に手作業でラベルを付ける必要があります。データをスケールアップするとき、これは骨の折れる作業です。

大量のツイートに手動でラベルを付けずに分類を実行する方法はありますか? それとも、このタスクには教師なし学習の方が適していますか?