私は WKS を使用して NLP アプリケーションで作業していますが、トレーニングの後、かなり低いパフォーマンスの結果が得られました。
トレーニング セットとテスト セットの両方について、エンティティ分類を含む注釈付きドキュメントをダウンロードする方法があるのではないかと考えています。そうすれば、重要な違いがどこにあるかを詳細に自動的に識別できるので、それらを修正できます。
人間によって注釈が付けられたものは、セクション「アセット」/「ドキュメント」-> ドキュメント セットのダウンロード (右側のボタン) でダウンロードできます。
次の Python コードでは、内部のデータを確認できます。
import json
import zipfile
with zipfile.ZipFile(<YOUR DOWNLOADED FILE>, "r") as zip:
with zip.open('documents.json') as arch:
data = arch.read()
documents = json.loads(data)
print(json.dumps(documents,indent=2,separators=(',',':')))
df_documentos = pd.DataFrame(None)
i = 0
for documento in documents:
df_documentos.at[i,'name'] = documento['name']
df_documentos.at[i,'text'] = documento['text']
df_documentos.at[i,'status'] = documento['status']
df_documentos.at[i,'id'] = documento['id']
df_documentos.at[i,'createdDate'] = '{:14.0f}'.format(documento['createdDate'])
df_documentos.at[i,'modifiedDate'] = '{:14.0f}'.format(documento['modifiedDate'])
i += 1
df_documentos
with zipfile.ZipFile(<YOUR DOWNLOADED FILE>, "r") as zip:
with zip.open('sets.json') as arch:
data = arch.read()
sets = json.loads(data)
print(json.dumps(sets,indent=2,separators=(',',':')))
df_sets = pd.DataFrame(None)
i = 0
for set in sets:
df_sets.at[i,'type'] = set['type']
df_sets.at[i,'name'] = set['name']
df_sets.at[i,'count'] = '{:6.0f}'.format(set['count'])
df_sets.at[i,'id'] = set['id']
df_sets.at[i,'createdDate'] = '{:14.0f}'.format(set['createdDate'])
df_sets.at[i,'modifiedDate'] = '{:14.0f}'.format(set['modifiedDate'])
i += 1
df_sets
次に、圧縮ファイルの「gt」フォルダーに入る JSON ファイルを 1 つずつ読み取り、詳細な文の分割、トークン化、および注釈を取得することを繰り返します。
私が必要としているのは、「機械学習モデル」/「パフォーマンス」/「デコード結果の表示」に表示される、機械学習モデルから得られた TEST ドキュメントの注釈をダウンロードできることです。
これにより、タイプ ディクショナリと注釈基準の改訂につながる特定の逸脱を特定できるようになります。