sequence - 類似の URL のシーケンスを検出するためのアルゴリズムは?

Question

ドメインにさまざまなレベルのパスの深さと類似性を持つ URL のリストがあるとします。

url1/some/where/here
url1/some/where-2/here
url1/some-3/where/here
...
...
url1/some/where/here/right/now/1
url1/some/where/here/right/now/2
url1/some/where/here/right/now/3
url1/some/where/here/right-1/now/1
url1/some/where/here/right-1/now/2
url1/some/where/here/right-1/now/3
url1/some/where/here/right-2/now/1
url1/some/where/here/right-2/now/2
url1/some/where/here/right-2/now/3
url1/some/where/here/right-2/now/4
...

密度 (スラッシュの数) と類似性 (テキストの距離、レーベンシュタイン) に基づいて URL 文字列をクラスター化するために使用できるアルゴリズムは何ですか?

したがって、出力はグループにクラスター化されます。

url1/some/where/here

url1/some/where-2/here

url1/some-3/where/here

url1/some/where/here/right/now/1
url1/some/where/here/right/now/2
url1/some/where/here/right/now/3

url1/some/where/here/right-1/now/1
url1/some/where/here/right-1/now/2
url1/some/where/here/right-1/now/3

url1/some/where/here/right-2/now/1
url1/some/where/here/right-2/now/2
url1/some/where/here/right-2/now/3
url1/some/where/here/right-2/now/4

url1/some-3/where/here/133

いくつかの特徴: - URL 文字列の密度が高い (または深い) ほど、関連性が高くなり、連続して繰り返される可能性が高くなります。- 同様の URL のチャンクが次々と繰り返されます。似ていない URL は、似たような URL の塊から離れているように見えます。

DBSCAN はここで適切ですか?

(濃度、LV距離)

スラッシュまでの最後の文字を消去してから、後続の文字列で一致を検索することを考えました。一致がリスト内の次の URL である場合、それらはチャンクである可能性があります。一致がリストのさらに下にある場合は、チャンクの一部ではない可能性があります。

    url1/some/where

これはほとんどどこにでもあるため、チャンクの一部ではありません。

    url1/some/where/here/right/now/

候補の直後に見つかった 2 つの後続の一致を検索します。

    url1/some/where/here/right-2/now/

連続して発生する 3 つの一致を検索します。そのため、それらはまとめられています。

    url1/some-3/where

ウェイの一番下でもう 1 つの一致を見つけます。距離があるため、どちらもチャンクの一部ではありません。このアプローチの名前またはこれに沿った何かはありますか?

sequence - 類似の URL のシーケンスを検出するためのアルゴリズムは?

1 に答える 1

Related

Reference