私は StanfordCoreNLP NER とすべてを Web サイトで手動で試してきましたが、たとえば、エンティティを検出するために非常に具体的/適切な英語の手がかりに依存しているようです。ただし、Web テキストを扱う場合は、次のようなテキストを使用できます。
ジョン・ドウ
コンピューター サイエンスの助教
スタンフォード大学
StanfordNLP には問題があるようです (前置詞/句読点がないため、全体を 1 つの組織としてラベル付けしています)。NER がこの種のテキストをより適切に処理できるようにするためにできることはありますか (たとえば、テキストの前処理をプログラムするなど)?