私は自由に使えるツイートを数百件持っており、各ツイッター ユーザーの実名を取得し、少なくとも 2 つのツイートを見て、各ユーザーを男性と女性に分類しようとしています。私はすでに各人のプロフィールから各人の本名を取得するようにプログラムしており、ユーザーが M か F かをより強力に断言するために、ツイートのテキストを分類しようとしています。テキストの例をオンラインで調べて検索しました。分類されていますが、どこから始めればよいかよくわかりません。また、このリンクTwitter Text With Gender Downloadで、非常に役立つデータをいくつか見つけました。 ツイートのテキストを男性または女性によって書かれたものとして分類する方法についての提案は大歓迎です! 私はレンガの壁にぶつかったようなものです。
5 に答える
トレーニング セットが必要です。これは明らかなステートメントです。他に方法はありません。また、前の質問Using Naive Bayes Classification to Identity a Twitter User's Genderで既に述べたように、手動で作成するか、外部ルール (本名など) を使用してトレーニング セットを作成する半教師あり形式で作成できます。 .
最も簡単な方法は、性別ラベルを使用して分類子をトレーニングするために、既存のツイート データを使用することです 。
その他のリソース: ブログの性別: http://www.cs.uic.edu/~liub/FBS/blog-gender-dataset.rar
分類子のトレーニングを支援するために男性または女性によって確実に作成されたテキスト データセットは他にありません。
これはあなたにとってハードルです。たとえば、パーセプトロン学習器を使用して、そのようなデータセットで教師あり学習を実行する必要があります。または、k-means クラスタリングなどの教師なし学習を実行し、男性または女性の信号であると (ある程度恣意的に) 宣言できるクラスターを見つけようとする必要があります。教師なしのアプローチで性別を区別することは、少なくとも他の既存の情報、事前情報、または構築できる機能マップがなければ、実際には不可能に近いでしょう.
私の python 性別検出プロジェクトhttps://github.com/muatik/genderizerをご覧ください。
作者の名前やサンプル テキスト (ツイートなど) を見て、作者の性別を検出しようとします。
ファーストネームに基づいて性別を返すこの REST API もご覧ください: http://www.thomas-bayer.com/restnames/
enderComputerは、@Bogdan Vasilescu による Python スクリプトで、名前 (ほとんどの場合は名) と場所 (国) から人の性別を推測しようとします。このツールは、さまざまな国からの情報を、小柄な人に関する情報、l33t-speak、および名前ベースの性別推論のためのオープン ソース C プログラムgender.c
からのデータと組み合わせます。