コサイン類似度の入力は、比較したい 2 つの異なるデータを表す 2 つのベクトルです。ベクトルのセマンティックに関する要件はありますか? 単純に各ファイルのバイト表現にすることはできますか? そして、各バイトの頻度を計算しますか? これは理にかなっていますか?または、テキスト ファイルまたは tf-idf エンコーディング モデルについて話す場合、各次元がファイルからの生のデータではなく、各用語の頻度としてのメタデータであるファイルのベクトル化が必要ですか? 別の形で言えば、「正しい」ためにコサイン類似度はデータの複雑な前処理ステップを要求するか、テキストを念頭に置いていない、または頻度だけでデータの各バイトを表す入力整数値としてそれを与えることができます各バイトの用語?
質問する
660 次