java - ノイズの多い Web テキストを処理するために StanfordCoreNLP を適応させますか?

Question

私は StanfordCoreNLP NER とすべてを Web サイトで手動で試してきましたが、たとえば、エンティティを検出するために非常に具体的/適切な英語の手がかりに依存しているようです。ただし、Web テキストを扱う場合は、次のようなテキストを使用できます。

ジョン・ドウ

コンピューターサイエンスの助教

スタンフォード大学

StanfordNLP には問題があるようです (前置詞/句読点がないため、全体を 1 つの組織としてラベル付けしています)。NER がこの種のテキストをより適切に処理できるようにするためにできることはありますか (たとえば、テキストの前処理をプログラムするなど)?

score 0 · Accepted Answer

各行の最後にドット (.) を追加すると、より良い結果が得られます。(センテンススプリッターは区切り文字としてドットを使用するため)

1 に答える 1