一種のアーカイブ サービスを設定したいと考えています。ドキュメント (数十 KB の HTML) をサービスに送信すると、短い識別子が返され、後でその識別子を使用してドキュメントを取得できます。ドキュメントの多くは互いに非常に似ています。1 つの文書に対して、95% 重複する他の 1000 の文書が存在する可能性があります。したがって、ドキュメントを送信するたびに、アーカイブ サービスは類似したドキュメントを見つけようとし、相違点だけを保存する必要があります。
このようなシステムはすでに存在しますか?可能であれば、PHP/MySQL ベースのものを希望します。