1

私が持っているテキスト上のいくつかのエンティティを認識したいのですが、多くのアルゴリズム(NaiveBayes、隠れマルコフモデル、条件付き確率場など)を見つけましたが、ほとんどすべてがエンティティを分類するために膨大なトレーニングデータを必要としているようです。

トレーニングデータにテキストがなくても認識できるアルゴリズムがあるかどうかを知りたいのですが、認識したいデータを表す単語だけか、文字列パターンなどがあります。

私が避けたい唯一のことは、トレーニングデータとして巨大なテキストを持つ必要性です。

4

1 に答える 1

2

見つけたい名前付きエンティティの種類の短いリスト (通常は「地名辞典」と呼ばれます) があり、トレーニング データに手動で注釈を付けたくない場合は、名前付きエンティティ認識のブートストラップに関する作業を検討する必要があります。ブートストラップを使用して、地名辞典を拡張したり、名前付きエンティティ認識エンジンを開発したりできます。クイック検索で見つけたいくつかのアプローチの例は、次の論文です。

名前付きエンティティ認識のアクティブ ラーニングに関するかなりの量の研究も行われています。これにより、手動で注釈を付けることにした場合に、注釈を付ける必要があるトレーニング データの量を大幅に減らすことができます。

于 2011-08-10T10:12:17.353 に答える