java - データのトレーニングにテキスト全体を必要としないエンティティ認識分類アルゴリズムはありますか？

Question

私が持っているテキスト上のいくつかのエンティティを認識したいのですが、多くのアルゴリズム（NaiveBayes、隠れマルコフモデル、条件付き確率場など）を見つけましたが、ほとんどすべてがエンティティを分類するために膨大なトレーニングデータを必要としているようです。

トレーニングデータにテキストがなくても認識できるアルゴリズムがあるかどうかを知りたいのですが、認識したいデータを表す単語だけか、文字列パターンなどがあります。

私が避けたい唯一のことは、トレーニングデータとして巨大なテキストを持つ必要性です。

score 2 · Accepted Answer

見つけたい名前付きエンティティの種類の短いリスト (通常は「地名辞典」と呼ばれます) があり、トレーニングデータに手動で注釈を付けたくない場合は、名前付きエンティティ認識のブートストラップに関する作業を検討する必要があります。ブートストラップを使用して、地名辞典を拡張したり、名前付きエンティティ認識エンジンを開発したりできます。クイック検索で見つけたいくつかのアプローチの例は、次の論文です。

名前付きエンティティ認識のアクティブラーニングに関するかなりの量の研究も行われています。これにより、手動で注釈を付けることにした場合に、注釈を付ける必要があるトレーニングデータの量を大幅に減らすことができます。

java - データのトレーニングにテキスト全体を必要としないエンティティ認識分類アルゴリズムはありますか？

1 に答える 1

Related

Reference