仕事に活用できる minhash オープン ソース実装を探しています。
必要な機能は非常に単純です。セットを入力として指定すると、実装はそのミンハッシュを返す必要があります。
python または C の実装が優先されます。念のため、それをハックして動作させる必要がある場合に備えてです。
どんなポインタでも大いに役立ちます。
よろしく。
次のオープン ソース ライブラリを順番に確認する必要があります。それらはすべて Python で記述されており、LSH/MinHash を使用してドキュメントの類似性を計算する方法を示しています。
datasketch ライブラリを見てください。シリアル化とマージをサポートしています。外部依存関係のない純粋な python で実装されています。Go バージョンにはまったく同じ機能があります。
特に永続性が必要な場合は、このライブラリをお勧めします。ここでは、redis を使用してすべてのデータを保存/取得できます。
redis データベースを選択するか、組み込みのメモリ内 Python 辞書を使用するかを選択できます。
少なくとも redis サーバーがローカル マシンで実行されている場合、redis を使用したパフォーマンスは、標準の python 辞書を介して達成されるパフォーマンスとほぼ同じです。
次のような構成辞書を指定するだけです。
config = {"redis": {"host": 'localhost', "port": '6739', "db": 0}}
それを引数としてLSHash
クラス コンストラクターに渡します。