問題タブ [edit-distance]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - SyntaxError: 2 つのコードを比較するために ZSS ライブラリを使用するコードで「while ループ」を使用する場合の無効な構文
ZSS ライブラリを使用して Tree-Edit-Distance b/w 2 コードを計算しています。コードで while ループを使用すると、Invalid syntax という名前のエラーがスローされます。for ループで問題なく動作します。[リンク] https://github.com/timtadh/zhang-shashaを使用しています。
java - Java でのメトリック距離に基づく高速文字列検索
任意の文字列sが与えられた場合、すべての文字列 S ⊆ M を文字列 M (|M| > 100 万) の大規模なセットからすばやく取得するメソッドが必要です。ここで、S のすべての文字列は最小の編集距離 < t (いくつかの最小値) を持ちます。しきい値) sから。
最悪の場合、M 内の文字列がこの基準に一致しない場合、S は空になる可能性があり、せいぜい S = { s } (完全一致) です。その間のいずれの場合でも、S が非常に大きい可能性があることを完全に期待しています。
一般に、編集距離の最大しきい値を固定 (たとえば 2) にすることを期待しており、この操作を任意の文字列sに対して何度も実行する必要があります。高過ぎ。
メトリックの例として編集距離を使用しましたが、Jaccard インデックスなどの他のメトリックも使用したいと思います。
これを達成できる既存の Java 実装について誰か提案をしたり、この問題を解決するための適切なアルゴリズムとデータ構造を教えてもらえますか?
更新 #1
それ以来、メトリック ツリーはまさに私が求める構造であり、距離メトリックを利用して、メトリックを使用した相互の距離に基づいて M 内の文字列のサブセットを編成することを学びました。Vantage -Point、BK、およびその他の同様のメトリック ツリー データ構造とアルゴリズムは、この種の問題には理想的です。さて、Java で使いやすい実装を見つけるには...
更新 #2
このbk ツリーとレーベンシュタイン距離の実装を組み合わせて使用することで、100 万個の文字列のセット (M) から任意の文字列に対するサブセットを約 10 ミリ秒の取得時間で正常に取得できます。
python - リストPython内のレーベンシュタイン距離の計算
文字列のリストがあり、レーベンスタイン距離に基づいて類似しすぎる文字列を除外したいと考えています。だからもしlev(list[0], list[10]) < 50
; それからdel list[10]
。リスト内のすべての文字列のペア間の距離をより効率的に計算する方法はありますか?? ありがとう!!
上記のかなりばかげたコードは、計算に時間がかかりすぎています...
c++ - レーベンシュタイン編集距離は編集距離を計算していません
レーベンシュタイン編集距離アルゴリズムを機能させようとしていますが、何らかの理由で編集数が正しくありません。自分の間違いがどこにあるのかわからず、誰かが私が間違っていることを見ているのではないかと思っていました。
入力
期待される出力
私の出力
検索編集距離
取得距離
updateStrands
python - Python pandas:2つのリスト間の距離を計算していますか?
次のようなランキング A と B の 2 つのリストがあります。
A:
B:
相関法を使用して 2 つのリストを比較し、リストが互いにどのように異なるかを確認したいと思います。現在、「Spearman」相関法を使用していますが、実行するたびに異なる結果が得られるという問題があります。これが私のコードです:
相関ランクの計算
2 つのリストを比較する方法を教えてくれる人はいますか?