“edit-distance”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

1221 参照

string - 1 つの文字列と他の文字列の大きなセットの間の編集距離を効率的に計算しますか?

ユースケースは、固定文字列のように他の文字列の大規模なセットをランク付けするオートコンプリートオプションです。

各オプションソリューションを最初からやり直すよりも優れた仕事をすることができる、DFA RegEx のような何かのろくでなし化はありますか?

この質問をした人は解決策を知っているようですが、情報源を挙げていません。

（ps「このリンクを読む」タイプの回答歓迎。）

2014-03-14T23:30:32.533

0 投票する

4 に答える

7522 参照

python - 隣接関係の重み/ペナルティを伴うレーベンシュタイン距離

文字列編集距離 (レーベンシュタイン距離) を使用して、アイトラッキング実験のスキャンパスを比較しています。（現在stringdist、Rでパッケージを使用しています）

基本的に文字列の文字は、6x4 マトリックスの (注視) 位置を表します。マトリックスは次のように構成されています。

基本的なレーベンシュタイン距離を使用して文字列を比較するaと、文字列内のとの比較はとの比較gと同じ推定値にaなりxます。

例えば：

これは、文字列が等しく (異なる) 類似していることを意味します。

マトリックスに隣接性を組み込む方法で、文字列比較に重みを付けたいと思います。たとえば、との間の距離は、との間の距離aよりxも大きく重み付けする必要がaありgます。

One way could be to calculate the "walk" (horizontal and vertial steps) from one letter to the other in the matrix and divide by the max "walk"-distance (i.e. from a to x). E.g. the "walk"-distance from a to g would be 1 and from a to x it would be 8 resulting in a weight of 1/8 and 1 respectively.

Is there a way to implement this (in either R or python)?

python r levenshtein-distance edit-distance eye-tracking

2014-05-07T10:56:05.287

0 投票する

1 に答える

562 参照

git - 2 つのコミット間の編集距離を取得するには?

2 つのコミットのコンテンツ間の適切な編集距離を計算する方法を探しています。

私が見つけた最良の方法は、の出力から何かを導き出すことです

...しかし、この方法を使用して思いつくものは、編集距離の非常に大まかなプロキシになります。

もっと良いものはありますか？

git diff levenshtein-distance edit-distance

2014-05-31T20:51:12.147

0 投票する

4 に答える

5091 参照

graph - グラフ編集距離 (GED) を計算するツール

グラフ編集距離 (GED) やその他のグラフ類似度 ( http://goo.gl/gmDMgAなど) の計算に関する多くの理論を読みましたが、そのような計算を実行するためのツールを見つけることができませんでした。

グラフの編集距離を計算するプログラミングライブラリまたはソフトウェアはありますか? また、2 つのグラフ間のグラフの類似度を測定するその他の方法はありますか?

graph edit-distance

2014-06-25T19:07:05.213

0 投票する

2 に答える

580 参照

scala - Scalaのケンダルタウ距離

これは ScalaでのKendall タウ距離の正しい実装ですか?

問題は、アルゴリズムをテストするのに十分なデータがなく、ウィキペディアの例がほんの少ししかないことです。また、アルゴリズムを十分に理解していないため、独自のテストデータを生成できません。ほとんどの情報源は、関連はあるが別の動物であるケンダルタウの順位相関係数に関するものです。たぶん、どうにかして一方を他方から派生させることができますか？

今のところ、パフォーマンスは重要ではないとしましょう。

アップデート

これで、Kendall タウ距離アルゴリズムの 3 つの実装ができました。そのうちの 2 つ (distance1とdistance3) は同じ結果になります (以下を参照)。それで、どれが正しいですか？

そして、ここにいくつかの結果があります：

scala edit-distance

2014-07-08T18:49:21.990

0 投票する

1 に答える

107 参照

algorithm - レーベンシュタイン距離アルゴリズムの冗長性

典型的な動的レーベンシュタイン距離アルゴリズムでは、 cell の値を計算するために、d[i][j]とiはjそれぞれ行番号と列番号でありd[i-1][j-1]+0/1、d[i-1][j]+1との最小値を取りd[i][j-1]+1ます。ただし、との最小値d[i-1][j-1]+0/1はd[i-1][j]+1常にになるように思われます。この場合、計算にd[i-1][j-1]+0/1含めるのは冗長に思えます。レーベンシュタイン距離アルゴリズムで>d[i-1][j]+1の場合はありますか?そうでない場合は、この比較を省略した方が効率的ではないでしょうか?d[i-1][j-1]+0/1d[i-1][j]+1

編集:調査不足の質問で申し訳ありません。アルゴリズムの標準的な実行では、d[i-1][j-1]+0/1>のインスタンスが表示されd[i-1][j]+1ます。

（2行目を考えてください）。

algorithm levenshtein-distance edit-distance

2014-07-14T19:01:20.703

0 投票する

1 に答える

575 参照

scala - やけど:文字列をペアで比較しますか?

Scalding では、次のことを行う必要があります。

文字列フィールドを最初の 3 文字でグループ化する
edit-distanceメトリックを使用して、すべてのグループのすべてのペアの文字列を比較します ( http://en.wikipedia.org/wiki/Edit_distance )
レコードがある CSV ファイルに結果を書き込みますstring; string; distance

文字列をグループ化するには、次の例のように mapandを使用します。groupBy

その結果、次のようになります。

aaaさて、この例では、このリストのキーを持つ文字列の編集距離を計算する必要があります。

このリストの「bbb」キーを持つすべての文字列の次:

等

独自の関数に置き換える必要があるすべてのグループのすべての文字列間の編集距離を計算するにはtoList、どうすればよいですか? また、関数の結果を CSV ファイルに書き込むにはどうすればよいですか?

ありがとう！

アップデート

Listスカルディングからの入手方法はPipe？

toList別のものを返すだけPipeなので、すべてを使用することはできません:

scala hadoop edit-distance scalding

2014-07-15T12:22:17.560

問題タブ [edit-distance]

Reference