テキストから抽出された単語を (NLP/NLTK または Textblob を使用して) エンティティおよびカテゴリ (リストまたは分類法から) に分類する方法は?
キーワードデータベースを用意し、テキストから一致するキーワードを1行ずつ抽出したいと思います。
たとえば、テキストファイルの下に
日付、説明、入金額 (€)、出金額 (€)
1) 3-Mar-16、CNC CNCWORD1 CNCWORD2 P 01/03 3、、2.95
2) 3-Mar-16 POS POSWORD1 CNCWORD2 01/03 0、、 20
3) 2016 年 3 月 2 日 CNC CNCWORD3 28/02, , 1.604) 2016 年 3 月 2 日 POS POSWORD3 POSWORD4 29/02 17, ,102.3
そしてキーワードデータベース
{CNC CNCWORD1、CNCWORD3、POS POSWORD1 CNCWORD2、POS POSWORD3}
各行から NLP を使用して、一致する可能性が高いキーワードを取得します
上記の例では、次のようになります。
1) CNC CNCWORD1 2) POS POSWORD1 CNCWORD2 3) CNCWORD3 4) POS POSWORD3