2

これは一種の一般的な自由回答形式の質問であることは承知しています。私は本質的に、前進する方法を決定するための助けと、おそらくいくつかの読み物を探しています.

私は構造化されていないテキスト マイニングを行うアルゴリズムに取り組んでおり、そのテキストから特定のもの (単一のアーティスト、バンドなど) の名前を抽出しようとしています。テキスト自体には予測可能な構造はありませんが、比較的小さいです (1、2 行のテキスト)。

いくつかの例は次のとおりです (実際のイベントではありません)。

Concert Green Day At Wembley Stadium
Extraordinary representation - Norah Jones in Poland - at the Polish Opera

今、分類器を試してみることを考えていますが、実際のトレーニング情報を提供するにはテキストが小さすぎるようです。おそらく、この種の問題に対して良い結果をもたらすテキスト マイニング手法、ヒューリスティック、またはアルゴリズムが他にもいくつかあるでしょう (または、おそらくどのアルゴリズムもそうではありません)。

4

2 に答える 2

2

データの構造が原因で、事前にトレーニングされたモデルのパフォーマンスが低下する可能性があります。さらに、一般的な組織場所人物のカテゴリは、おそらく役に立たないでしょう。

テキスト自体が小さすぎるとは思いません。ほとんどの NER システムは、一度に 1 つの文を処理します。したがって、 http://nlp.stanford.edu/ner/index.shtmlのように、NER ライブラリを使用して独自のトレーニング セットを提供すると、おそらくうまくいくでしょう。

トレーニング セットを作成したくない場合は、すべてのバンド/アーティストの辞書が必要になります。そうすれば、明らかに未知のバンド/アーティストを見つけることができません。

于 2011-07-13T11:43:38.170 に答える