文中のn-gramを見つけることができるアルゴリズム(またはC#、Javaソース)を探しています。具体的には、100語(w1〜w100)の語彙と、これらの単語(s1、s2、s3など)で構成された文があります。
文は1から100語までの可変長であり、単語は文の中で任意の順序で表示できます(ただし、文に配置されると順序は重要です)、単語は任意の回数繰り返すことができます。
しきい値を取り、しきい値を超えて発生する文とn-gramが出現する文のn-gramを返すアルゴリズムを探しています。
また、同じ順序で、間にギャップがある一般的な単語を検出するギャップトレラントアルゴリズムにも興味があります。
前もって感謝します。この質問が明確に、StackOverflowの範囲内で述べられていることを願っています。