nlp - 名前の抽出 - 履歴書/履歴書 - スタンフォード NER/OpenNLP

Question

私は現在、履歴書/履歴書から個人の名前を抽出する学習プロジェクトに取り組んでいます。

現在、私は Stanford-NER と OpenNLP を使用しており、どちらもすぐに使用できる程度の成功を収めており、「非西洋」タイプの名前で苦労する傾向があります (誰に対しても攻撃を意図していません)。

私の質問は、履歴書/履歴書の個人の名前に関連する文の構造や文脈が一般的に欠如していることを考えると、履歴書コーパスに似たものを作成することで、名前の識別に大きな改善が得られる可能性がありますか?

私の最初の考えでは、文を分割し、明らかなテキストを削除し、少しの論理を適用して個人の名前を推測することで、おそらくもっと成功するだろうということです.

名前が構造化された文の中にある場合、トレーニングがどのように機能するかはわかりますが、コンテキストのないスタンドアロンのエンティティ (たとえば、Akbar Agho) としては、トレーニングに関係なく苦労すると思います。

十分なデータが与えられた場合に名前を見つけるためのパターンを定式化し始める AI のレベルはありますか、それともロジックベースの文字列抽出のレベルを適用するだけでよいのでしょうか?

人々の考え、意見、提案を歓迎します。

補足: 私は Appache Tika で PHP を使用して Doc/Pdf からの最初のテキスト抽出を行っており、PHP/Commandline を介してスタンフォードと OpenNLP を試しています。

クリス

score 1 · Accepted Answer

問題に対する私の2セント。

したがって、上記の NER タガーに固執することが、パイプラインの最初のブロックになります。そこにあるものを特定できれば、ビオラ、そうでない場合は先に進む必要はありません。ルールベースのアプローチをお勧めします。履歴書について話すとき、候補者の名前は通常、履歴書の上位 10% の行にあります。多くの場合、「 Name : Ankit Solanki 」も続きます。メールアドレスを見つけようとして失敗した場合は、履歴書の他のテキストから取得した別の NP ペアと一致させてください。ほとんどの場合、履歴書などの専門的な目的の電子メールアドレスには名前が付けられます。たとえば、john.mayer89abc.comはjohn.mayerにクリーンアップされます。これは、クリーンな電子メール名に最も近い名詞句を見つけるアルゴリズムを通過します。

これについてのあなたの考えを教えてください。

一番、

アンキット

nlp - 名前の抽出 - 履歴書/履歴書 - スタンフォード NER/OpenNLP

2 に答える 2

Related

Reference