こんにちは、xml コレクションからいくつかのドキュメントのインデックスを作成する小さなプログラムを作成しようとしています。tf-idf メソッドを使用します。私のプログラムがクエリを読み取ると、各ドキュメントの各単語のタプル ('tf-idf','docid') のリストが返されます。
これは例です:
Query: "Dog water"
Documents: [(0.212,1),(0.334,1),(0.111,2),(0,2)]
この場合、ドキュメント 2 には 1 つの単語しか含まれていません。
ここで私の質問は次のとおりです。これらのドキュメントとクエリの間でドット積を実行する必要があることはわかっていますが、どうすればよいですか? クエリを重みのベクトルに変換するにはどうすればよいですか?
ありがとうございました。