クローズド ソースの Web アプリケーション以外は見つかりません。アクティブなプロジェクトはありますか? 私が開発し、関与しているものにソフトウェアを使用することに興味があります。
10 に答える
これを行うと主張する別の Web サイトがあります: GenderAnalyzer . ただし、これを書いている時点でダウンしている uClassify.com という別の Web サイトに依存しています。下部に質問用の連絡先リンクがあります。
「私たちの研究室では、かなりうまく機能しているようです」というアカデミックな服装のように聞こえます。
ここで適応できる 2 クラス アナライザーの全セットがあります...スパム ブロックおよび識別ソフトウェア. ユーザーは男性が書いたテキスト (スパムとして扱われる) と女性のテキスト (ハムとして扱われる、またはその逆) を取得する必要がありますが、多くは機能するはずです。
"The Gender Genie" のような、ある程度の成功を収めているアプリケーションがあります: http://bookblog.net/gender/genie.php (特に長いテキストの場合)
完全に成功する必要はありません。膨大な量のデータを処理する必要がありますが、それは主に楽しみのためだけです。
誰かが何かを知っている場合は、共有してください。
リチャード
2 つのカテゴリを想定しているため、ほとんどすべての分類子で問題ないでしょう。いくつかの提案:
- 単純なベイズ
- サポート ベクター マシン
以前のコメンターが言ったように、テキストの既知のサンプル (たくさんあるはずです... 新聞のコーパスが良いかもしれません) から始めて、いくつかの合理的な属性 (存在/不在または単語または単語のペア) でトレーニングおよび分類します。
これは(比較的)簡単なはずです。
Python を使用している場合は、Natural Language Toolkit (参照: nltk.org) やその書籍のような単純なものでさえ、かなりのことを理解できるはずです。
ここでテキスト文字列の性別分類子を試すことができます:http://uclassify.com/browse/uClassify/gender_v3
あなたは問題に遭遇するでしょう: 推測はまさにそれです -- 推測. 作者の性別を、その文章から厳密に判別する正確な方法はほとんどありません。
ねえ、これはおそらくできるでしょう。男性と女性の著者からたくさんの本を取り、文章を取り出して混ぜ合わせ、何らかのニューラル ネットワークに入力してトレーニングする必要があります。正直なところ、誰かがそれをやってのけるかどうかを知りたいです. ああ、私はなぜそのようなプログラムが必要なのか興味があります:)
nlpersは数年前にこれについてブログを書いています。いくつかの提案については、そこのコメントを参照してください...
Stephen Baker のThe Numeratiという本には、これに関するセクションがあります。マーケティング目的でブロゴスフィアをコンピューターで分析することに専念している企業があり、そのアルゴリズムの一部は、著者が男性か女性かを判断することを扱っています。これを読むことをお勧めします。
このような作品がオープンソースであるとは思いませんが、圧縮版を自分で作成できるかもしれません。ただし、これをプログラムするために大量のデータを分析しないと、あまり正確ではないと思います。
潜在的なセマンティック インデックス作成/分析のオープン ソース実装がいくつかあります。アプリケーションに関連する男性と女性の書き込みの優れたトレーニング セットがあれば、有用なほど正確に分類できる可能性があります。