既知の役職のマスター リストがあり、検索語から同じ役職を抽出する方法を探しています。例えば:
検索された役職:シニア デジタル マーケティング スペシャリスト
抽出先:シニア デジタル マーケティング
検索された役職:小売インストア セールス アシスタント。フルタイム
抽出先:小売販売アシスタント
そこで、検索されたクエリをクリーンアップするのに役立つパラメーターを抽出しようとしました。
1) データベース内の 2 つのトークンの出現。(用語が互いにどの程度関連しているかを数学的評価するため) 例:
t01->t0 or t1 Senior || java--->226374
t02->t0 or t2 Senior || software--->2566450
t03->t0 or t3 Senior || engineer--->7220787
t12->t1 or t2 java || software--->315397
t13->t1 or t3 java || engineer--->407682
t23->t2 or t3 software || engineer--->11533495
total =t01+t02+t03+t12+t13+t23
2) データベース全体で一度に 1 つ取得されたトークンの出現。例:
t0-> Senior----->55042636
t1-> java----->1655805
t2-> software----->26136204
t3-> engineer----->81574912
3) 関連するトークンの合計を取り、5% の最小しきい値を設定すると、次の出力が得られます。つまり、(txy*100)/total > 5 です。
私の成果:シニア ソフトウェア エンジニア
同様のプロジェクトの経験がある人や、さらに改善するためのアイデアを持っている人はいますか?