最初にラベル付けされたトレーニング データを必要とせずに、カスタム制御語彙を使用して名前付きエンティティ認識 (NER) を実行できる Java ライブラリを探しています。SEでいくつか検索しましたが、ほとんどの質問はかなり具体的ではありません.
次の使用例を検討してください。
- 編集者が CMS に記事を入力しています (約 500 ワード)。
- テキストには、特定のドメインのエンティティへの参照 (プレーン テキスト) が含まれている場合があります。例えば:
- バー、レストラン、近所などの名所の名前。
- これらのエンティティの制御語彙が存在します (約 5.000 エンティティ)。
- 実体は語彙の -tuple であると想像します
- テキストを完成させた後、ユーザーはドキュメントを保存できるはずです。
- これにより、ワークフローがトリガーされ、エンティティの名前と比較することで、語彙に対してテキストの一部をスキャンします。100% 一致する必要はありません。Jarao-winkler などで 97% (私はアルゴリズムの NER が使用するものに精通していません) で十分かもしれません。これを構成可能にする必要があります。
- ヒットはコントローラーのサーバー側に返されます。これにより、エンティティを含むクライアントに JSON が返され、エディターへの提案されたクロスリンクとして表されます。
理想的には、NRE を使用して、CMS 環境内でピギーバックするクロスリンクを提案するプロジェクトを探しています。(たとえば、wordpressのプラグインが存在すると確信しています)Javaに同様のものが存在するかどうかはわかりません。
制御されたカスタム語彙で動作する NRE ライブラリへの他のすべてのより一般的なポインタも同様に歓迎されます。