Web サーバーのログ (apache、nginx など) があるとします。そこから URL の大きなリストを抽出します。
/article/1/view
/article/2/view
/article/1/view
/article/1323/view
/article/1/edit
/help
/article/1/view
/contact
/contact/thank-you
/article/8/edit
...
また
/blog/2012/06/01/how-i-will-spend-my-summer-vacation
/blog/2012/08/30/how-i-wasted-my-summer-vacation
...
['article', '1323', 'view'] または ['blog', '2012', '08', '30', 'how-i-wasted-my -夏休み']。
これらの URL を分析および比較して、URL パス内の「変数」を検出して呼び出すにはどうすればよいでしょうか。つまり、 、 などを認識/article/XXX/view
し/article/XXX/edit
て/blog/XXX/XXX/XXX/XXX
、それらの行に関する情報をログに要約できるようにする必要があります。
変更可能な部分と、似ているが異なるテンプレートを構成する違いの数には、統計的なしきい値が必要になると思います。また、どのデータ構造がこの分析を迅速かつ簡単にするかについても確信が持てません。
スクリプトの出力で、サーバー上に存在するすべての URL テンプレートであると考えられるものを、適切な場合はある程度の信頼値とともに出力したいと考えています。