0

一種のアーカイブ サービスを設定したいと考えています。ドキュメント (数十 KB の HTML) をサービスに送信すると、短い識別子が返され、後でその識別子を使用してドキュメントを取得できます。ドキュメントの多くは互いに非常に似ています。1 つの文書に対して、95% 重複する他の 1000 の文書が存在する可能性があります。したがって、ドキュメントを送信するたびに、アーカイブ サービスは類似したドキュメントを見つけようとし、相違点だけを保存する必要があります。

このようなシステムはすでに存在しますか?可能であれば、PHP/MySQL ベースのものを希望します。

4

1 に答える 1

0

ユースケースからCouchDBが思い浮かびます。ドキュメントを JSON として保存する方法と、ドキュメントのリビジョンを保持する方法 (_rev フィールドに保存) についてお読みください。

http://guide.couchdb.org/draft/documents.html

ただし、比較は行いません。単純な CouchDB の実装では、その責任はユーザーに委ねられますが、バージョンは非常に適切に処理されます。

残念ながら、ドキュメントを比較し、類似のものを見つけてそれらを置き換える、すぐに使えるデータベースを私は知りません。

于 2013-02-03T01:22:33.283 に答える