1

目標は、BERT SRLを別のデータセットでトレーニングすることです。構成に応じて、 が必要conll-formatted-ontonotes-5.0です。

ネイティブに、私のデータは CoNLL 形式で提供され、それを OntoNotes v.5.0 のGitHub 版のconll-formatted-ontonotes-5.0 形式に変換しました。データの読み取りは機能し、トレーニングは機能しているように見えますが、精度が 0 のままであることを除きます。SRL 引数のエンコード (BOI またはフレーズ?) または列構造 (CoNLL 形式の他の OntoNotes エディションはここで異なります) が予想と異なると思われます。入力。または、ロール ラベルがコードに組み込まれている場合、エラーが発生する可能性があります。長い形式( )を使用して参照データをたどりましたARGM-TMPが、他のデータでは短い形式(AM-TMP)をよく見かけます。

問題は、ここ期待されるデータセットと形式です。OntoNotes 5.0 の CoNLL/Skel フォーマットの 1 つに WORD 列が復元されたものだと思いますが、

  • CoNLL 版はOntoNotes の LDC 版には同梱されていないようです

  • OntoNotes の作成者が提供するGitHubの OntoNotes v.5.0 の「conll-formatted-ontonotes-5.0」版の形式ではないようです。

  • PropBank の一部として、 OntoNotes 5.0 データの少なくとも 1 つの他の CoNLL/Skel エディションがあります。これは、3 つの列が省略されていることと、述語のエンコードが他のものと異なります。(私のデータの一部については、これがネイティブ形式です。)

  • SrlReaderのドキュメントには、BIO (IOBES) エンコーディングが記載されています。これは、PropBank データの他の CoNLL 版で実際に使用されていますが、上記の OntoNotes コーパスでは使用されていません。他のそのような形式は、たとえば、CoNLL-2008 および CoNLL-2009 形式、およびさまざまなバリアントです。

SrlReader のリバース エンジニアリングを開始する前に、それに応じてデータを準備できるデータ スニペットを手元に持っている人はいますか?

conll-formatted-ontonotes-5.0私のデータのバージョン (EWT コーパスからのサンプル):

google/ewt/answers/00/20070404104007AAY1Chs_ans.xml 0   0   where   WRB (TOP(S(SBARQ(WHADVP*)   -   -   -   -   *   (ARGM-LOC*) *   *   -
google/ewt/answers/00/20070404104007AAY1Chs_ans.xml 0   1   can MD  (SQ*    -   -   -   -   *   (ARGM-MOD*) *   *   -
google/ewt/answers/00/20070404104007AAY1Chs_ans.xml 0   2   I   PRP (NP*)   -   -   -   -   *   (ARG0*) *   *   -
google/ewt/answers/00/20070404104007AAY1Chs_ans.xml 0   3   get VB  (VP*    get 01  -   -   *   (V*)    *   *   -
google/ewt/answers/00/20070404104007AAY1Chs_ans.xml 0   4   morcillas   NNS (NP*)   -   -   -   -   *   (ARG1*) *   *   -
4

1 に答える 1