python - さらにインデックスを作成するためにトークン化の結果を保存するにはどうすればよいですか？

Question

私は完全に初心者で、今は簡単なを実装しようとしていsearch engine in pythonます。

tokenizerで使用した関数でうまくやっていますNLTK。しかし、トークナイザーの結果を保存することに混乱しています。さらにインデックスを作成するために、それらを保持する必要があります。

これを行う一般的な方法は何ですか？どのようなデータベースを使用する必要がありますか？

score 1 · Accepted Answer

Manning、Raghavan、Schützeによる情報検索の概要では、インデックスの作成と保存にいくつかの章を取り上げています。Baeza-YatesとRibeiro-NetoによるModernInformationRetrievalもそう

ただし、単純な趣味/研究プロジェクトの場合、インデックスストレージにはSQLiteで十分です。tfを計算するために（term、document-id、frequency）トリプルを保持するテーブルと、（term、df）ペアを格納するテーブルが必要です。どちらも、用語のインデックスが付いています。tf-idfを計算するにはこれで十分です。

python - さらにインデックスを作成するためにトークン化の結果を保存するにはどうすればよいですか？

1 に答える 1

Related

Reference