ツイッターとのコミュニケーションの仕方やツイートの取得方法は知っていますが、これらのツイートにさらに取り組んでいきたいと思っています。
食べ物とスポーツの2つのカテゴリーがあります。次に、ツイートを食べ物とスポーツに分類したいと思います。コンピュータアルゴリズムに基づいて分類する方法を誰かに教えてもらえますか?
Gauravに関して
ツイッターとのコミュニケーションの仕方やツイートの取得方法は知っていますが、これらのツイートにさらに取り組んでいきたいと思っています。
食べ物とスポーツの2つのカテゴリーがあります。次に、ツイートを食べ物とスポーツに分類したいと思います。コンピュータアルゴリズムに基づいて分類する方法を誰かに教えてもらえますか?
Gauravに関して
私は最近、潜在的ディリクレ割り当てでいくつかの仕事をしています。一般的な考え方は、ドキュメントにはトピックから生成された単語が含まれているということです。試してみることができるのは、関心のあるトピックに関することがわかっているドキュメントのコーパスをロードし、関心のあるツイートで更新してから、既知のドキュメントと同じトピックの可能性が高いツイートを選択することです。
私はLDA(package:topicmodelsとpackage:lda)にRを使用していますが、これにもいくつかのビルド済みのPythonツールがあると思います。ベイズ統計に確固たる根拠がない限り、私はおそらく自分で書くことをやめようと思います。
これがtopicmodelsパッケージのドキュメントです:http://cran.r-project.org/web/packages/topicmodels/vignettes/topicmodels.pdf
一連のアルゴリズムがオープンドメインのツイートを分類できるとは思えません。言い換えれば、一連のルールがオープンドメインのツイートを分類できるとは思わない。ツイートを解析して、分類用にカスタマイズされたセマンティック表現にする必要があります。