履歴書(CV)の大規模なデータベースと、すべてのユーザースキルをグループ化した特定のテーブルスキルがあります。
そのテーブル内には、スキルをフルテキストで説明するフィールドskill_textがあります。
標準化されたスキルを備えた新しいテーブルを構築するために、そのテーブルから重要な用語/フレーズを抽出するためのアルゴリズム/ソフトウェア/メソッドを探しています。
DBから抽出されたスキルの例を次に示します。
- セクター別および競争力のある分析
- 事業開発(国際的な設定を含む)
- 特定の構造および道路設計ソフトウェア-Microstation、Macao、AutoCAD(基本的な知識)
- クリエイティブな作品(Photoshop、In-Design、Illustrator)
- キャンペーンの進捗状況を確認して報告します
- イベントや展示会の企画と参加
- 開発:Aptana Studio、PHP、HTML、CSS、JavaScript、SQL、AJAX
- 規律:1対1のマーケティング、Eマーケティング(SEO&SEA、ディスプレイ、電子メール、アフィリエイトプログラム)ミックスマーケティング、バイラルマーケティング、ソーシャルネットワークマーケティング。
出力は次のようになります。
- セクター別および競争力のある分析
- 事業開発
- 特定の構造および道路設計ソフトウェア-
- マカオ
- AutoCAD
- Photoshop
- インデザイン
- イラストレーター
- イベントの開催
- 発達
- Aptana Studio
- PHP
- HTML
- CSS
- JavaScript
- SQL
- AJAX
- ミックスマーケティング
- バイラルマーケティング
- ソーシャルネットワークマーケティング
- メール
- SEO
- 1対1のマーケティング
ご覧のとおり、スキルだけが他の表現テキストではありません。
私はこれがテキストマイニング技術を使用して可能であることを知っていますが、それを行う方法は?データベースは本当に大きいです..テキストの頻度を計算して、それが本当のスキルなのか無意味なテキストなのかを判断できるので、それは良いことです...大きな問題は..「blablabla」がスキルであると判断する方法です。
編集:テキストトークンや正規表現などの標準的なものを使用するように言わないでください..ユーザーは非常に任意の方法でスキルを入力するためです!!
ありがとう