問題タブ [annoy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
448 参照

nearest-neighbor - ドキュメント類似性検索 - annoy & pysparNN

ドキュメントの最近傍または近似最近傍を見つけるための解決策を見つけようとしています。

現在、ドキュメントのベクトル表現として tfidf を使用しています。私のデータはかなり大きいです (N ~ 100 万)。tfidf で annoy を使用すると、メモリが不足しました。tfidf の高次元性 (私の語彙は約 2000000 語の中国語) のせいだと思いました。

次にpysparNNで試してみましたが、うまくいきました。ただし、私の懸念は、データサイズが大きくなると、pysparNN がより大きなインデックスを構築し、最終的に RAM に収まらない可能性があることです。pysparNN は annoy のように静的ファイルを使用しないため、これは問題です。

テキストデータの最近傍を見つけるための良い解決策は何だろうと思っています。現在、gensim の annoy インデックスを doc2ve で使用することを検討しています。

0 投票する
1 に答える
359 参照

nlp - 最近隣検索に Torchtext で annoy を使用する

私はいくつかの NLP タスクに Torchtext を使用しています。具体的には、組み込みの埋め込みを使用しています。

逆ベクトル検索を実行できるようにしたい: ノイズの多いベクトルを生成し、それに最も近いベクトルを見つけてから、ノイズの多いベクトルに「最も近い」単語を取得します。

torchtext docsから、組み込みデータセットに埋め込みをアタッチする方法は次のとおりです。

次に、迷惑インデックスを構築できます。

次に、ノイズの多いベクトルを使用して単語を取得したいとします。

上記の最後の 2 行について質問があります: The ann_indexwas built using enumerateover the embeddingobject, which is a Torch tensor.

オブジェクトには、与えられたインデックスが単語を返す[vocab][2]独自のリストがあります。itos

私の質問は次のとおりです: itos リストに表示される単語の順序が の順序と同じであると確信できますTEXT.vocab.vectorsか? あるインデックスを別のインデックスにマップするにはどうすればよいですか?

0 投票する
0 に答える
218 参照

python - pip install package_name の使用中に「exit status 1: python setup.py egg_info」エラーを解決するにはどうすればよいですか?

私の使用環境では、 scann, lshash, annoyetcからパッケージをインストールできません。使ってみたらなんと、インストールされていました。エラーが発生しています:pip installWindows 10condapip install autocorrect

エラー: コマンドが終了ステータス 1 でエラーになりました: コマンド: 'c:\users\admin\anaconda3\python.exe' -c 'import sys, setuptools, tokenize; sys.argv[0] = '"'"'C:\Users\admin\AppData\Local\Temp\pip-install-btjh444k\lshash_e1892c63618846ad8854e50ef0d165c7\setup.py'"'"'; file ='"'"'C:\Users\admin\AppData\Local\Temp\pip-install-btjh444k\lshash_e1892c63618846ad8854e50ef0d165c7\setup.py'"'"';f=getattr(tokenize, '"'"'open' "'"', open)(ファイル);code=f.read().replace('"'"'\r\n'"'"', '"'"'\n'"'"'); f.close();, '"'"'exec'"'"'))' egg_info --egg-base 'C:\Users\admin\AppData\Local\Temp\pip-pip-egg-info-n1j15tcy' cwd: C:\ Users\admin\AppData\Local\Temp\pip-install-btjh444k\lshash_e1892c63618846ad8854e50ef0d165c7\ 完全な出力 (7 行): トレースバック (最新の呼び出しが最後): ファイル ""、行 1、ファイル "C:\Users\admin\AppData\Local\Temp\pip-install-btjh444k\lshash_e1892c63618846ad8854e50ef0d165c7\setup.py"、3 行目、インポート lshash ファイル "C:\Users\admin\AppData\Local\Temp\pip-install-btjh444k \lshash_e1892c63618846ad8854e50ef0d165c7\lshash_init _.py"、12 行目、lshash インポート LSHash ImportError: 部分的に初期化されたモジュール 'lshash' から名前 'LSHash' をインポートできません (循環インポートが原因である可能性が最も高い) (C:\Users\admin\AppData\Local\ Temp\pip-install-btjh444k\lshash_e1892c63618846ad8854e50ef0d165c7\ lshash_init_.py) -------------------------------------------- エラー: コマンドでエラーが発生しました終了ステータス 1: python setup.py egg_info ログで完全なコマンド出力を確認します

私もインストールしVisual C++ Redistributable for Visual Studio 2015ました。私は使っているWindows 10