1

現在、私はある種の会話をシミュレートしようとするチャットボットを書いています。Pythonのn00bである私は、現在、標準的なクエリセットに対するいくつかの標準的な応答をリストと辞書に依存しています。詳細を学ぶと、リスト/辞書/関数では不十分であり、ある種のデータベースを使用する必要があることに気付きます。現時点では、ユーザーからの新しい質問に遭遇したときに、リスト/辞書にアイテムを追加し続けています。私の質問は、ユーザーからのデータを保存/クエリするためにどのデータベースを使用するかです。回答では、これとそれに続くリンクを調べましたが、どのDBが使用されたかについては言及されていません。(私のこの小さなプロジェクトは、機械学習とNLPの概念を自分自身に教えることを目的としています)

前もって感謝します。

4

2 に答える 2

2

Googleのn-gramは、おそらくあなたが取得できる最高のデータベースの1つであり、単語の頻度を提供するだけでなく、フレーズを取得できる頻度のn-gramも提供します。

Markovitch&Gabrilovichが(素晴らしい)論文で説明しているように、単語/用語の意味分析など、さまざまな用途にウィキペディアのダンプファイルを使用することもできます:ウィキペディアベースの自然言語処理の意味解釈

于 2012-12-05T20:10:09.143 に答える
1

調べたいかもしれませんredis。非常に高速で(チャットボットにとって重要です)、非常に使いやすいです。ただし、これは単なるKey-Valueストアであるため、XMLでの例のような階層化されたロジックを探している場合、これは必ずしも答えではありません。ただし、ここでも、ロジックをに格納したくないでしょう。とにかくデータベース。

基本的に、Redisを見てください。しかし、あなたが何をしているのかについての詳細がなければ、助けるのは少し難しいです。

于 2012-12-05T20:06:16.800 に答える