0

コサイン類似度の入力は、比較したい 2 つの異なるデータを表す 2 つのベクトルです。ベクトルのセマンティックに関する要件はありますか? 単純に各ファイルのバイト表現にすることはできますか? そして、各バイトの頻度を計算しますか? これは理にかなっていますか?または、テキスト ファイルまたは tf-idf エンコーディング モデルについて話す場合、各次元がファイルからの生のデータではなく、各用語の頻度としてのメタデータであるファイルのベクトル化が必要ですか? 別の形で言えば、「正しい」ためにコサイン類似度はデータの複雑な前処理ステップを要求するか、テキストを念頭に置いていない、または頻度だけでデータの各バイトを表す入力整数値としてそれを与えることができます各バイトの用語?

4

1 に答える 1

1

データの「セマンティクス」は重要です。たとえば、英語のテキストドキュメントを比較しているとします。大きなドキュメントの場合、さまざまな文字の出現頻度はほぼ同じになるため、ベクトルの要素が文字の数を表す場合、ドキュメントを区別するのに問題が発生します。ベクトルの要素が単語の数を表す場合、より良い結果が得られます。ベクトルの要素が「語幹」の単語の数を表す場合は、さらに適切です。等。

コサイン類似度は「ばかげた」統計的尺度です-比較するのに意味のあるものを与えるのはあなた次第です。

于 2013-02-20T18:26:04.577 に答える