0

Rでドキュメントフィンガープリンティング用の選別アルゴリズムを実装しようとしています.

ここで参照http://www.ida.liu.se/~TDDC03/oldprojects/2005/final-projects/prj10.pdf

私の質問:

n-gram のハッシュを取得する方法と、それらを選択する方法

nGrams <- c("adoru", "dorun", "orunr", "runru", "unrun", "nrunr" ,"runru",
  "unrun","nruna", "runad", "unado", "nador", "adoru", "dorun", "orunr" ,"runru" ,
  "unrun")
4

1 に答える 1

1

まるで

library(digest)
v <- sapply(nGrams,digest,algo="crc32")
uv <- unique(v)
(as.integer(as.hexmode(uv))-1) %% 4 == 0

良いスタートになるでしょう。(CRC32 は常に奇数なので、1 を引く必要があります。)

于 2011-11-12T13:47:32.733 に答える