3

私は、基本的に知識ベースの質問応答システムであるプロジェクトに取り組んでいます。私のシステムは、ユーザーからクエリを受け取り、ウィキペディアから関連ドキュメントをダウンロードし、すべての html タグを取り除き、プレーン テキストを抽出します。この後、ドキュメントを文にトークン化し、用語-ドキュメント(TD) マトリックスを形成します (クエリも文として渡されます)。この TD マトリックスは、pLSA (Probabilistic Latent Symentic Analysis) アルゴリズムに転送されます。最後に、クエリ ベクトルを使用してドキュメント (文) ベクトル間のコサイン類似度を計算します。クエリ ベクトルとの類似度に基づいて、最も関連性の高い文が回答として表示されます。(ステミングは、TD マトリックスの形成時にも行われます)。問題は、結果は表示されますが、最も関連性が高くないことです。どこが間違っていますか?私が従っている戦略は正しいですか、または、役立つ可能性のある他のアルゴリズムが存在しますか?? 以下に、システムから返された質問とその回答の一部を示します。

What is photosynthesis?
ANSWER  1 :   The stroma contains stacks (grana) of thylakoids, which are the site of photosynthesis 

ANSWER  2 :   Factors leaf is the primary site of photosynthesis in plants 

ANSWER  3 :   Samuel Ruben and Martin Kamen used radioactive isotopes to determine that the oxygen liberated in photosynthesis came from the water 

ANSWER  4 :   In plants, algae and cyanobacteria, photosynthesis releases oxygen 

別の質問

What is Artificial Intelligence?
ANSWER  1 :   the problem of creating 'artificial intelligence' will substantially be solved" 

ANSWER  2 :   37 The leading-edge definition of artificial intelligence research is changing over time 

ANSWER  3 :   Stories of these creatures and their fates discuss many of the same hopes, fears and ethical concerns that are presented by artificial intelligence 

ANSWER  4 :   History of artificial intelligence and Timeline of artificial intelligence Thinking machines and artificial beings appear in Greek myths , such as Talos of Crete , the bronze robot of Hephaestus , and Pygmalion's Galatea 13 Human likenesses believed to have intelligence were built in every major civilization 

別の質問

Who is a hacker?

ANSWER  1 :   19 Hackers (short stories) Helba from the  

ANSWER  2 :   16 Rafael Núñez aka RaFa was a notorious most wanted hacker by the FBI since 2001 

ANSWER  3 :   Often, this type of 'white hat' hacker is called an ethical hacker 
ANSWER  4 :   Hackers also commonly use port scanners  

さらに別の実行

What is biology?
ANSWER  1 :   Molecular biology is the study of biology at a molecular level 

ANSWER  2 :   molecular biology studies the complex interactions of systems of biological molecules 

ANSWER  3 :   The similarities and differences between cell types are particularly relevant to molecular biology 

ANSWER  4 :   Contents History Foundations of modern biology 2 
4

2 に答える 2

2

これは、質問応答 (QA) と呼ばれるよく研究されている問題です。別の回答で QA に関する概要を提供しました。特に、 TRECによると、あなたの例はすべて「定義の質問」のカテゴリに分類されます。アイデアを得るために、 GoogleまたはGoogle Scholarで「TREC 定義の質問」のクエリから得られたいくつかの論文を熟読することをお勧めします。

于 2012-03-23T14:51:23.433 に答える
1

完全な統計的アプローチを維持すると、システムを改善するのは難しいと思います。統計的 NLP の観点から、あなたは本当に正しいことをしています。ここで、いくつかのパラメータを微調整できます。そのためには、どの答えが正しいかをシステムに伝えることによってトレーニング コーパスを構築する必要があります...そして、この答えを得るためにパラメータがどの値をとらなければならないかを確認します。

そうは言っても、パラメーターを微調整しても精度が 20% ~ 30% 以上向上するとは思いません。

さらに先に進みたい場合は、よりセマンティックなアプローチが必要になり、知識を象徴的に表現する必要があります。たとえば、http: //www.jfsowa.com/ を確認してください。

于 2012-03-23T14:03:04.073 に答える