nlp - CoNLL-X トレーニングデータはどこで入手できますか?

Question

Stanford Neural Network Dependency Parser をトレーニングして、フレーズの類似性をチェックしようとしています。

私が試した方法は次のとおりです。

java edu.stanford.nlp.parser.nndep.DependencyParser -trainFile trainPath -devFile devPath -embedFile wordEmbeddingFile -embeddingSize wordEmbeddingDimensionality -model modelOutputFile.txt.gz

私が得たエラーは次のとおりです。

Train File: C:\Users\rohit\Downloads\CoreNLP-master\CoreNLP-master\data\edu\stanford\nlp\parser\trees\en-onetree.txt
Dev File: null
Model File: modelOutputFile.txt.gz
Embedding File: null
Pre-trained Model File: null
################### Train
#Trees: 1
0 tree(s) are illegal (0.00%).
1 tree(s) are legal but have multiple roots (100.00%).
0 tree(s) are legal but not projective (0.00%).
###################
#Word: 3
#POS:3
#Label: 2
###################
#Transitions: 3
#Labels: 1
ROOTLABEL: null
Random generator initialized with seed 1459831358061
Exception in thread "main" java.lang.NullPointerException
    at edu.stanford.nlp.parser.nndep.Util.scaling(Util.java:49)
    at edu.stanford.nlp.parser.nndep.DependencyParser.readEmbedFile.  (DependencyParser.java:636)
    at edu.stanford.nlp.parser.nndep.DependencyParser.setupClassifierForTraining(DependencyParser.java:787)
    at edu.stanford.nlp.parser.nndep.DependencyParser.train(DependencyParser.java:676)
    at edu.stanford.nlp.parser.nndep.DependencyParser.main(DependencyParser.java:1247)

コードに組み込まれているヘルプには、トレーニングファイルは「CoNLL-X 形式のトレーニングツリーバンクへのパス」である必要があると記載されています。

トレーニングする CoNLL-X トレーニングデータがどこにあるか知っている人はいますか? トレーニングファイルを指定しましたが、埋め込みファイルを指定しなかったため、このエラーが発生しました。私の推測では、埋め込みファイルを渡せばうまくいくかもしれません。

どのトレーニングファイルと埋め込みファイルを使用する必要があるのか、どこでそれらを見つけることができるのかを明らかにしてください。

score 2 · Accepted Answer

CoNLL-X ツリーバンク

デンマーク語、オランダ語、ポルトガル語、スウェーデン語のトレーニングデータは、こちらから無料で入手できます。他の言語については、おそらく LDC からツリーバンクのライセンスを取得する必要があります (多くの言語の詳細については、そのページを参照してください)。

Universal Dependenciesは CoNLL-U 形式であり、通常は多少の作業で CoNLL-X 形式に変換できます。

最後に、ツリーバンクとその可用性の大きなリストがこのページにあります。このリストの依存ツリーバンクの多くは、まだ CoNLL-X 形式になっていない場合は、変換できるはずです。

Stanford Neural Net Dependency パーサーのトレーニング

このページから: 埋め込みファイルはオプションですが、ツリーバンクはオプションではありません。使用するのに最適なツリーバンクと埋め込みファイルは、解析する言語とテキストの種類によって異なります。理想的には、解析しようとしているドメイン/ジャンルでできるだけ多くのデータをトレーニングします。

nlp - CoNLL-X トレーニング データはどこで入手できますか?

1 に答える 1

Related

Reference

nlp - CoNLL-X トレーニングデータはどこで入手できますか?