これは一種の一般的な自由回答形式の質問であることは承知しています。私は本質的に、前進する方法を決定するための助けと、おそらくいくつかの読み物を探しています.
私は構造化されていないテキスト マイニングを行うアルゴリズムに取り組んでおり、そのテキストから特定のもの (単一のアーティスト、バンドなど) の名前を抽出しようとしています。テキスト自体には予測可能な構造はありませんが、比較的小さいです (1、2 行のテキスト)。
いくつかの例は次のとおりです (実際のイベントではありません)。
Concert Green Day At Wembley Stadium
Extraordinary representation - Norah Jones in Poland - at the Polish Opera
今、分類器を試してみることを考えていますが、実際のトレーニング情報を提供するにはテキストが小さすぎるようです。おそらく、この種の問題に対して良い結果をもたらすテキスト マイニング手法、ヒューリスティック、またはアルゴリズムが他にもいくつかあるでしょう (または、おそらくどのアルゴリズムもそうではありません)。