私は現在、履歴書/履歴書から個人の名前を抽出する学習プロジェクトに取り組んでいます。
現在、私は Stanford-NER と OpenNLP を使用しており、どちらもすぐに使用できる程度の成功を収めており、「非西洋」タイプの名前で苦労する傾向があります (誰に対しても攻撃を意図していません)。
私の質問は、履歴書/履歴書の個人の名前に関連する文の構造や文脈が一般的に欠如していることを考えると、履歴書コーパスに似たものを作成することで、名前の識別に大きな改善が得られる可能性がありますか?
私の最初の考えでは、文を分割し、明らかなテキストを削除し、少しの論理を適用して個人の名前を推測することで、おそらくもっと成功するだろうということです.
名前が構造化された文の中にある場合、トレーニングがどのように機能するかはわかりますが、コンテキストのないスタンドアロンのエンティティ (たとえば、Akbar Agho) としては、トレーニングに関係なく苦労すると思います。
十分なデータが与えられた場合に名前を見つけるためのパターンを定式化し始める AI のレベルはありますか、それともロジックベースの文字列抽出のレベルを適用するだけでよいのでしょうか?
人々の考え、意見、提案を歓迎します。
補足: 私は Appache Tika で PHP を使用して Doc/Pdf からの最初のテキスト抽出を行っており、PHP/Commandline を介してスタンフォードと OpenNLP を試しています。
クリス