私のプロジェクトの 1 つで apache Open NLP を実験しています。私の要件は、電子メールの内容から名詞を検出し、顧客データベース (この DB は個人名、組織名などで構成され、私の検索エンジンは Solr ベースです) を確認することです。
通常の英語の名詞の場合、デフォルトのトレーニング済みモデルは (ほとんどの場合) 適切に機能しますが、トリッキーな要件の 1 つは、OK、LET などの略語を使用するビジネス組織があるため、いくつかのシナリオで OK、LET などを考慮する必要があることです。名詞として。
例として 1) 「LET にいくつかのアイテムを送ります。支払いが遅れることをご了承ください」 2) 「パーティーに行きましょう」
#1 では LET を名詞と見なしたいのですが、#2 では LET は名詞ではありません。
この要件を達成できれば、検索エンジンでの誤検知の一致を大幅に減らすことができます。
どんな助けでも大歓迎です。