java - 再帰的な一致を返す文字列検索アルゴリズム - Java

Question

Rabin-Karp 検索アルゴリズムは正常に動作していますが、再帰検索に変更する際に誰かが私を導くのを手伝ってくれますか? http://algs4.cs.princeton.edu/53substring/RabinKarp.java.html . 例えば：

 *  **pattern:** rar
 *  **text:**    abacadabrararbracabrarararacadabrabrarbracad 
 *  **match1:**          rar               
 *  **match2:**            rar
 *  **match3:**                     rar
 *  **match4:**                       rar
 *  **match5:**                         rar
 *  **match5:**                                     rar

再帰的なテキスト一致検索のための他の高速なアルゴリズムはありますか?

解決

http://johannburkard.de/software/stringsearch/から外部ライブラリをビルドパスに追加します。以下のコードは、一致のすべての開始位置を返します。match1 や match2 などの組み込みのものも含まれます。

import com.eaio.stringsearch.BNDM;

String pattern = "rar";
String text = "abacadabrararbracabrarararacadabrabrarbracad";

// Loop through text to get starting position of matched pattern.
List<Integer> matchPoint =new ArrayList<Integer>();
int slice = -1;
while (slice<text.length()){
    slice+=1;
    com.eaio.stringsearch.BNDM result = new BNDM();
    int pos = result.searchString(text, slice, pattern);
    if (pos != -1) {
        slice = pos;
        matchPoint.add(pos);
    }
}

score 2 · Accepted Answer

もちろんあります。文字列の小さなパターンを検索する場合、Rabin-Karp を使用することはお勧めしません。KMP、つまり Knuth-Morris-Pratt アルゴリズムは線形の時間と線形の追加メモリを必要とし、Rabin-Karp を扱う際に厄介な衝突を起こすことなくすべての一致を返すことができます。それについてはウィキを読んでください。このアルゴリズムは理解するのが少し難しくなりますが、コードは短くなり、正しく理解できれば非常に満足できます。

score 1 · Accepted Answer

より長いパターンの場合、Boyer-Moore アルゴリズムまたは Horspool のアルゴリズムのようなバリアントが一般的に高速です。Boyer-Moore アルゴリズムは、大きなアルファベットにはあまり適していません。テキストが完全な Unicode 範囲である場合、かなり大きなシフトテーブルが使用されますが、テキストが ASCII または latin1 の場合、ルックアップテーブル用の余分なスペースは小さくなります。大きいアルファベットならKMPもオススメです。

java - 再帰的な一致を返す文字列検索アルゴリズム - Java

2 に答える 2

Related

Reference