19

仕事に活用できる minhash オープン ソース実装を探しています。

必要な機能は非常に単純です。セットを入力として指定すると、実装はそのミンハッシュを返す必要があります。

python または C の実装が優先されます。念のため、それをハックして動作させる必要がある場合に備えてです。

どんなポインタでも大いに役立ちます。

よろしく。

4

4 に答える 4

13

次のオープン ソース ライブラリを順番に確認する必要があります。それらはすべて Python で記述されており、LSH/MinHash を使用してドキュメントの類似性を計算する方法を示しています。

lsh
LSHHDC : ローカリティに依存するハッシング ベースの高次元クラスタリング
MinHash

于 2013-05-10T21:07:13.110 に答える
12

datasketch ライブラリを見てください。シリアル化とマージをサポートしています。外部依存関係のない純粋な python で実装されています。Go バージョンにはまったく同じ機能があります。

于 2015-04-04T13:03:07.650 に答える
2

特に永続性が必要な場合は、このライブラリをお勧めします。ここでは、redis を使用してすべてのデータを保存/取得できます。

redis データベースを選択するか、組み込みのメモリ内 Python 辞書を使用するかを選択できます。

少なくとも redis サーバーがローカル マシンで実行されている場合、redis を使用したパフォーマンスは、標準の python 辞書を介して達成されるパフォーマンスとほぼ同じです。

次のような構成辞書を指定するだけです。

config = {"redis": {"host": 'localhost', "port": '6739', "db": 0}}

それを引数としてLSHashクラス コンストラクターに渡します。

于 2014-03-10T15:08:57.050 に答える