次のようなユーザー アクセス ログがあります。
pagename url
broker_pv /broker/934832
broker_pv /broker/983432
broker_pv /broker/n/342349
listing_pv /listing/a1-b2/
listing_pv /listing/c3/
将来の URL "/broker/245729" が "broker_pv" または "listing_pv" に属しているか、まったく一致しないかを調べたいです。
これは機械学習プロセスのようなものです。コンピューターに生データを入力すると、コンピューターが学習し、フィルタリングを支援します。
それを行う 1 つの方法は、「パターン ファインダー」プロセスです。つまり、生の入力から、人間は「broker_pv」URL がパターン「/broker/(n/)?[0-9]+」に一致すると推測できます。したがって、「/broker/245729」のような URL が来たら、それに対してすべてのパターンをテストし、それがどの「ページ名」に属するかを判断できます。
次に問題は、これらのパターンを見つけて、さらに使用するために「ページ名とパターンのペアのコレクション」を構築する方法です。
または、うまくいけば、より良い方法がありますか?