他の同様のテキストのハッシュと一致/比較するテキスト(私の場合はhtml)から一種のハッシュキーを作成したいと思います
一致するテキストの例:
- "2012/10/01 これは私のウェブページ #1 です"+ 100k_of_same_text + random_words_1 + ..
- "2012/10/02 これは私のウェブページ #2 です"+ 100k_of_same_text + random_words_2 + ..
- ...
- "2012/10/02 これは私のウェブページ #2 です"+ 100k_of_same_text + random_words_3 + ..
これまでのところ、数字とタグを削除することを考えていましたが、それでもランダムな単語が残ります.
これを投与するものはありますか?
サーバーへのルート アクセス権があるので、必要な UDF を追加できます。また、必要に応じて、C または他の言語で処理を実行できます。
理想は、一致するテキストの割合を返すような関数generateSimilarHash(text)
やその他の関数です。compareSimilarHashes(hash1,hash2)
compare(text1,text2) のような関数は、比較するページがたくさんあるため、私の場合のようには機能しません (現時点では約 20 ミル)。
どんなアドバイスも大歓迎です!