java - スタンフォードパーサー-金融商品のタグ付け

Question

一連の財務書類（定額預金書類、クレジットカード書類）を持っています。これらのドキュメントで金融機関/金融商品を自動的に識別してタグ付けしたいと思います。

たとえば、ドキュメントにこのフレーズが含まれている場合、「通知なしに利息で返済する権利を留保します」。それに関連する金銭的条件を特定し、それにタグを付けたいのですが、この文では「呼び出し可能」です。このフレーズ「早期撤退を許可する」の場合、関連する金銭的用語は「Putable」であるため、このフレーズがドキュメントに含まれている場合は、「Putable」という用語でタグ付けします。

金銭的条件は、Financial IndustryBusinessOntologyから取得されます。この目的でスタンフォードパーサーを使用する可能性はありますか？この目的でPOSタガーを使用できますか？金融商品を使用してスタンフォードパーサーをトレーニングする必要がある場合があります。可能であれば、金融商品を識別するためにスタンフォードパーサーをトレーニングするにはどうすればよいですか。

score 7 · Accepted Answer

箱から出してすぐに使えるパーサーまたは品詞タガーは、これらのようなドメイン固有の概念を識別しません。ただし、それらが提供する自然言語分析は、ソリューションの構成要素として役立つ場合があります。または、識別する必要のあるフレーズが固定フレーズに十分近い場合、それらは不要である可能性があり、固定フレーズの検索と分類に集中する必要があります。

これらは「名前付きエンティティ」ではありませんが、セマンティックフレーズクラスを認識しているという点で、問題は名前付きエンティティの認識に近いものです。見つけたいフレーズの例に注釈を付けて、名前付きエンティティ認識機能（Stanford NERなど）を使用してモデルをトレーニングするか、インスタンスに一致するルールを作成することができます（GATEのANNIEやStanfordのTokensRegexPatternなどを使用）。

score 2 · Accepted Answer

値を特定する必要がある文全体を解析する必要があります。次に、値をトークン化し、名詞、動詞などを識別します。

ここに表示されているサンプル出力を利用できます。を使用することにより、辞書用語を使用して用語を解析および識別できます。これは、開発する必要があります。

ここでも同じAPIを使用できます

これがお役に立てば幸いです。

score 1 · Accepted Answer

品詞タグ付けは、テキストファイルをXMLファイルに変換します。POSタグ付けと名前付きエンティティの認識を実現する簡単な方法は次のとおりです。

import java.io.IOException;
import edu.stanford.nlp.pipeline.StanfordCoreNLP;

public class POSTagging{
  public static void main(String[] args) {
    String arguments= "-annotators tokenize,ssplit,pos,lemma,ner -filelist ./filelist/filelist.txt -outputDirectory ./annotated";
    String[] commArgs=arguments.split(" ");
    try {
      StanfordCoreNLP.main(commArgs);
    } catch (IOException e) {
      e.printStackTrace();
    } catch (ClassNotFoundException e) {
      e.printStackTrace();
    }
  }
}

これを実行すると、注釈付きのXMLファイルが作成されます。JAXPまたは同等のものを使用してそれらを解析する必要があります。

java - スタンフォードパーサー-金融商品のタグ付け

3 に答える 3

Related

Reference