私の問題は、URLパスを比較して、それらが類似しているかどうかを推測する必要があることです。以下に、処理するサンプルデータを示します。
# GROUP 1
/robots.txt
# GROUP 2
/bot.html
# GROUP 3
/phpMyAdmin-2.5.6-rc1/scripts/setup.php
/phpMyAdmin-2.5.6-rc2/scripts/setup.php
/phpMyAdmin-2.5.6/scripts/setup.php
/phpMyAdmin-2.5.7-pl1/scripts/setup.php
/phpMyAdmin-2.5.7/scripts/setup.php
/phpMyAdmin-2.6.0-alpha/scripts/setup.php
/phpMyAdmin-2.6.0-alpha2/scripts/setup.php
# GROUP 4
//phpMyAdmin/
レーベンシュタイン距離を比較してみましたが、私にとっては十分に正確ではありません。100%正確なアルゴリズムは必要ありませんが、90%以上は必須だと思います。
ある種の分類子が必要だと思いますが、問題は、新しいデータの各部分に、新しい未知のクラスに分類する必要のあるパスが含まれている可能性があることです。
私を正しい方向に向けていただけませんか。
ありがとう