text - テキストマイニング - 非構造化テキストからバンド名を抽出

Question

これは一種の一般的な自由回答形式の質問であることは承知しています。私は本質的に、前進する方法を決定するための助けと、おそらくいくつかの読み物を探しています.

私は構造化されていないテキストマイニングを行うアルゴリズムに取り組んでおり、そのテキストから特定のもの (単一のアーティスト、バンドなど) の名前を抽出しようとしています。テキスト自体には予測可能な構造はありませんが、比較的小さいです (1、2 行のテキスト)。

いくつかの例は次のとおりです (実際のイベントではありません)。

Concert Green Day At Wembley Stadium
Extraordinary representation - Norah Jones in Poland - at the Polish Opera

今、分類器を試してみることを考えていますが、実際のトレーニング情報を提供するにはテキストが小さすぎるようです。おそらく、この種の問題に対して良い結果をもたらすテキストマイニング手法、ヒューリスティック、またはアルゴリズムが他にもいくつかあるでしょう (または、おそらくどのアルゴリズムもそうではありません)。

score 2 · Accepted Answer

データの構造が原因で、事前にトレーニングされたモデルのパフォーマンスが低下する可能性があります。さらに、一般的な組織、場所、人物のカテゴリは、おそらく役に立たないでしょう。

テキスト自体が小さすぎるとは思いません。ほとんどの NER システムは、一度に 1 つの文を処理します。したがって、 http://nlp.stanford.edu/ner/index.shtmlのように、NER ライブラリを使用して独自のトレーニングセットを提供すると、おそらくうまくいくでしょう。

トレーニングセットを作成したくない場合は、すべてのバンド/アーティストの辞書が必要になります。そうすれば、明らかに未知のバンド/アーティストを見つけることができません。

text - テキストマイニング - 非構造化テキストからバンド名を抽出

2 に答える 2

Related

Reference