2

私は StanfordCoreNLP NER とすべてを Web サイトで手動で試してきましたが、たとえば、エンティティを検出するために非常に具体的/適切な英語の手がかりに依存しているようです。ただし、Web テキストを扱う場合は、次のようなテキストを使用できます。


ジョン・ドウ

コンピューター サイエンスの助教

スタンフォード大学


StanfordNLP には問題があるようです (前置詞/句読点がないため、全体を 1 つの組織としてラベル付けしています)。NER がこの種のテキストをより適切に処理できるようにするためにできることはありますか (たとえば、テキストの前処理をプログラムするなど)?

4

1 に答える 1

0

各行の最後にドット (.) を追加すると、より良い結果が得られます。(センテンススプリッターは区切り文字としてドットを使用するため)

于 2014-07-18T05:03:48.527 に答える