0

テキストから抽出された単語を (NLP/NLTK または Textblob を使用して) エンティティおよびカテゴリ (リストまたは分類法から) に分類する方法は?

キーワードデータベースを用意し、テキストから一致するキーワードを1行ずつ抽出したいと思います。

たとえば、テキストファイルの下に

日付、説明、入金額 (€)、出金額 (€)
1) 3-Mar-16、CNC CNCWORD1 CNCWORD2 P 01/03 3、、2.95
2) 3-Mar-16 POS POSWORD1 CNCWORD2 01/03 0、、 20
3) 2016 年 3 月 2 日 CNC CNCWORD3 28/02, , 1.60

4) 2016 年 3 月 2 日 POS POSWORD3 POSWORD4 29/02 17, ,102.3

そしてキーワードデータベース

{CNC CNCWORD1、CNCWORD3、POS POSWORD1 CNCWORD2、POS POSWORD3}

各行から NLP を使用して、一致する可能性が高いキーワードを取得します

上記の例では、次のようになります。

1) CNC CNCWORD1 2) POS POSWORD1 CNCWORD2 3) CNCWORD3 4) POS POSWORD3

4

0 に答える 0