-1

「好きなもの10選」アンケートをもとにホームページを作りたいというクライアント様のホームページを制作しています。各ユーザーが答える必要がある 10 の質問があります。たとえば、「好きな色は何ですか」、「好きな有名人は誰ですか」などです。結果はホームページのグローバル トップ 10 リストにまとめられます。

難問は、ユーザーが好きなものを何でも入力できるようにすること (たとえば、お気に入りの休暇の目的地は「おばあちゃんの家」など) と、投票を正確に数えること (たとえば、ユーザー A がお気に入りの有名人は「女王」であり、ユーザー B は「イングランドの女王」だと言うかもしれません。同じ「もの」に対する 2 票としてカウントするには、これら 2 つの回答が必要です。

各質問に対して事前に決められた大規模なリストから選択するようにユーザーに強制すると、文字通り何でも「お気に入り」として定義するユーザーの能力が制限されます。一方、プレーン テキストの入力フィールドがあり、回答が送信された後に回答を解釈しようとすると、同じ回答に対して名前やスペルが異なる場合、投票をカウントするのがはるかに難しくなります。

何らかの形の検索フレーズ提案エンジンを使用して、回答をリアルタイムで自動的にモデレートすることは可能ですか? プレーンテキストフィールドが入力方法である場合、スペルのバリエーションを考慮に入れるにはどうすればよいでしょうか?

この機能に対する可能な解決策、おそらくソフトウェア、プラグイン、API などに関するアイデアを誰かが持っている場合は、お知らせください。

ありがとうございます。ご不明な点がございましたらお尋ねください。

4

3 に答える 3

0

Eric Jが言ったように、これは最先端のNLPアプリケーションに取り入れられています。これらは、AI /自動化の研究者やコンピューターサイエンス全般にとって非常に重要な研究分野ですが、それでも非常に活発です。使用できるプログラムとアルゴリズムは多数ありますが、その欠点と利点は非常に広くなっています。RapidMinerは優れており、WordNetは医療アプリケーションで広く使用されており、独自のコーパスに比較的簡単に調整できるはずです。潜在的ディリクレ割り当てなどのより高度な方法があります。ここにあなたが始めるべきいくつかのリソースがあります(上記のウィキペディアの記事に加えて)

http://www.semanticsearchart.com/index.html

http://www.mitpressjournals.org/loi/coli

http://marimba.d.umn.edu/(SenseClusters計算機を試してください)

http://wordnet.princeton.edu/

于 2012-07-09T16:12:22.747 に答える
0

「The Queen」と「The Queen of England」のカウントを自動化したい場合は、「楽しいちょっとした調査」よりも複雑な作業が必要になる可能性があります。量が十分に少ない場合は、手動で結果を数えることを検討してください。感覚で言うと、誰かが「スウェーデンの女王」や「レティファ王妃のコンサート」に参加したら?

本当にその道をたどりたい場合は、自然言語処理 (NLP) を調べてください。具体的には、カテゴライズの分野です。

NLP の概要については、関連するウィキペディアの記事をお勧めします。

http://en.wikipedia.org/wiki/Natural_language_processing

RapidMinerは、検討する価値のあるオープン ソースの NLP ソリューションです。

于 2012-07-09T16:04:31.720 に答える
0

短い回答を分類するのに最適なのはk-means clusteringです。ステミングを適用する必要があります。次に、基本辞書を使用して単語をインデックスに変換する必要があります。EverGroingDictionary.csからご利用いただけますsematicsearchart.com。フレーズをディクショナリにスローした後、一連の数値またはベクトルに変換されます。近接度を単語の偶然の数として導入し、k-means超高速で適用しますalgorithmk-meansすべての回答をグループにまとめます。各グループで最も頻繁に使用される単語は、グループの署名になります。C++or内のプログラム全体は 1000 行未満である必要があります C#Java

于 2012-07-20T12:34:20.527 に答える