2

私は完全に初心者で、今は簡単なを実装しようとしていsearch engine in pythonます。

tokenizerで使用した関数でうまくやっていますNLTK。しかし、トークナイザーの結果を保存することに混乱しています。さらにインデックスを作成するために、それらを保持する必要があります。

これを行う一般的な方法は何ですか?どのようなデータベースを使用する必要がありますか?

4

1 に答える 1

1

Manning、Raghavan、Schützeによる情​​報検索の概要では、インデックスの作成と保存にいくつかの章を取り上げています。Baeza-YatesとRibeiro-NetoによるModernInformationRetrievalそう

ただし、単純な趣味/研究プロジェクトの場合、インデックスストレージにはSQLiteで十分です。tfを計算するために(term、document-id、frequency)トリプルを保持するテーブルと、(term、df)ペアを格納するテーブルが必要です。どちらも、用語のインデックスが付いています。tf-idfを計算するにはこれで十分です。

于 2012-10-08T14:27:00.407 に答える