目標は、BERT SRLを別のデータセットでトレーニングすることです。構成に応じて、 が必要conll-formatted-ontonotes-5.0
です。
ネイティブに、私のデータは CoNLL 形式で提供され、それを OntoNotes v.5.0 のGitHub 版のconll-formatted-ontonotes-5.0 形式に変換しました。データの読み取りは機能し、トレーニングは機能しているように見えますが、精度が 0 のままであることを除きます。SRL 引数のエンコード (BOI またはフレーズ?) または列構造 (CoNLL 形式の他の OntoNotes エディションはここで異なります) が予想と異なると思われます。入力。または、ロール ラベルがコードに組み込まれている場合、エラーが発生する可能性があります。長い形式( )を使用して参照データをたどりましたARGM-TMP
が、他のデータでは短い形式(AM-TMP
)をよく見かけます。
問題は、ここで期待されるデータセットと形式です。OntoNotes 5.0 の CoNLL/Skel フォーマットの 1 つに WORD 列が復元されたものだと思いますが、
CoNLL 版はOntoNotes の LDC 版には同梱されていないようです
OntoNotes の作成者が提供するGitHubの OntoNotes v.5.0 の「conll-formatted-ontonotes-5.0」版の形式ではないようです。
PropBank の一部として、 OntoNotes 5.0 データの少なくとも 1 つの他の CoNLL/Skel エディションがあります。これは、3 つの列が省略されていることと、述語のエンコードが他のものと異なります。(私のデータの一部については、これがネイティブ形式です。)
SrlReaderのドキュメントには、BIO (IOBES) エンコーディングが記載されています。これは、PropBank データの他の CoNLL 版で実際に使用されていますが、上記の OntoNotes コーパスでは使用されていません。他のそのような形式は、たとえば、CoNLL-2008 および CoNLL-2009 形式、およびさまざまなバリアントです。
SrlReader のリバース エンジニアリングを開始する前に、それに応じてデータを準備できるデータ スニペットを手元に持っている人はいますか?
conll-formatted-ontonotes-5.0
私のデータのバージョン (EWT コーパスからのサンプル):
google/ewt/answers/00/20070404104007AAY1Chs_ans.xml 0 0 where WRB (TOP(S(SBARQ(WHADVP*) - - - - * (ARGM-LOC*) * * -
google/ewt/answers/00/20070404104007AAY1Chs_ans.xml 0 1 can MD (SQ* - - - - * (ARGM-MOD*) * * -
google/ewt/answers/00/20070404104007AAY1Chs_ans.xml 0 2 I PRP (NP*) - - - - * (ARG0*) * * -
google/ewt/answers/00/20070404104007AAY1Chs_ans.xml 0 3 get VB (VP* get 01 - - * (V*) * * -
google/ewt/answers/00/20070404104007AAY1Chs_ans.xml 0 4 morcillas NNS (NP*) - - - - * (ARG1*) * * -