私は完全に初心者で、今は簡単なを実装しようとしていsearch engine in python
ます。
tokenizer
で使用した関数でうまくやっていますNLTK
。しかし、トークナイザーの結果を保存することに混乱しています。さらにインデックスを作成するために、それらを保持する必要があります。
これを行う一般的な方法は何ですか?どのようなデータベースを使用する必要がありますか?
私は完全に初心者で、今は簡単なを実装しようとしていsearch engine in python
ます。
tokenizer
で使用した関数でうまくやっていますNLTK
。しかし、トークナイザーの結果を保存することに混乱しています。さらにインデックスを作成するために、それらを保持する必要があります。
これを行う一般的な方法は何ですか?どのようなデータベースを使用する必要がありますか?
Manning、Raghavan、Schützeによる情報検索の概要では、インデックスの作成と保存にいくつかの章を取り上げています。Baeza-YatesとRibeiro-NetoによるModernInformationRetrievalもそう
ただし、単純な趣味/研究プロジェクトの場合、インデックスストレージにはSQLiteで十分です。tfを計算するために(term、document-id、frequency)トリプルを保持するテーブルと、(term、df)ペアを格納するテーブルが必要です。どちらも、用語のインデックスが付いています。tf-idfを計算するにはこれで十分です。