これまでとても楽しかった学校のプロジェクトに参加することになり、少しだけ面白くなりました。私は約 600,000 件のツイートを所有しており (それぞれにスクリーン名、地理的位置、テキストなどが含まれています)、私の目標は、各ユーザーを男性または女性のいずれかに分類することです。現在、Twitter4J を使用して、ユーザーの氏名、友人の数、リツイートなどを取得できます。そのため、ユーザー名を調べてテキスト分析を行うことを組み合わせることで答えが得られるのではないかと考えていました。私は当初、これをルールベースの分類子のように作成できると考えていました。最初にユーザーの名前を見てから、テキストを分析し、M または F の結論に到達しようとすることができます。私は本当の真実の値を持っていないので、ナイーブベイズですか?
また、名前については、名前が男性か女性かを解釈するために何らかの辞書をチェックしていました。わかりにくい場合もあると思いますが、だからこそツイートのテキストも見ていきます。また、言及するのを忘れていました。これらの 600,000 のツイートで、ユーザーごとに少なくとも 2 つのツイートを利用できます。
ユーザーの性別の分類に関するアイデアや意見をいただければ幸いです。私はこの分野で多くの経験を持っていないので、手に入れることができるものは何でも学びたいと思っています.