Web調査(興味がある場合はGit User's Survey 2008 )への回答を分析したいと思います。いくつかの質問は、「Gitについてどのように知りましたか?」などの自由形式の質問でした。3,000を超える回答があり、それらの回答を完全に手作業で分析することは問題外です(特に、この調査にはかなりの自由形式の質問があります)。
それらの返信を(おそらく応答で使用されたキーワードに基づいて)少なくとも半自動でカテゴリにグループ化するにはどうすればよいですか(つまり、プログラムは確認を求めることができます)、後でそれらを表にまとめる方法(各カテゴリのエントリ数を数える)-フォームの返信(回答)?1つの回答が複数のカテゴリに属する場合がありますが、簡単にするために、カテゴリは直交/排他的であると想定できます。
私が知りたいのは、少なくとも検索するキーワード、または使用するアルゴリズム(メソッド)です。私はPerl(またはC)のソリューションを好みます。
考えられる解決策1.(部分的):ベイズ分類
(2009年5月21日追加)
私が考えた解決策の1つは、ベイジアンスパムフィルタリングにアルゴリズム(およびその背後にある数学的方法)のようなものを使用することです。1つまたは2つのカテゴリ(「スパム」と「ハム」)の代わりに、さらに多くのカテゴリがあります。カテゴリ自体は、適応的/インタラクティブに作成されます。