医療テキスト用のオントロジー ベースの注釈ツールを開発していますが、適切なデータ セットを見つけるのに少し苦労しています。
私は疾患オントロジーを使用しているため、疾患とその症状/治療に焦点を当てた医療データセットが必要です。
データセットは、できれば自然言語のテキスト (記事、研究など) である必要がありますが、辞書ベースやリストベースのテキストも役立つ可能性があります。
助けてくれてありがとう!
医療テキスト用のオントロジー ベースの注釈ツールを開発していますが、適切なデータ セットを見つけるのに少し苦労しています。
私は疾患オントロジーを使用しているため、疾患とその症状/治療に焦点を当てた医療データセットが必要です。
データセットは、できれば自然言語のテキスト (記事、研究など) である必要がありますが、辞書ベースやリストベースのテキストも役立つ可能性があります。
助けてくれてありがとう!
注釈を付ける生物医学テキストコーパスを探しているということですか? すなわち。重要な用語を特定します。出版された抄録を試すことができます - それらはLinked Open Data クラウドにあり、ウィキペディアで消費者レベルのものを試すことができます。あるいは、オープン アクセス ジャーナルの NIH Web サイトのディレクトリでさえ、注釈を付けるためのオープンな学術的なものがたくさんあります。
まだ行っていない場合は、UMLS (およびmetamapなどのそのサイド プロジェクト) を確認してください。これは、あらゆる種類の生物医学 NLP にとって非常に貴重です。興味があれば、UMLS と疾患オントロジー間のマッピング ファイルのコピーを持っていると思います。( RDF UMLS、http://linkedlifedata.com )
私は偏見を持っています (私は共同創設者なので)、tagtog.netにはまだたくさんの生物医学コーパスがあります。たとえば、IDP4+ コーパスは遺伝子変異の言及とその影響 (一部の病気も) に注釈を付け、V300 コーパスは病気を引き起こすウイルスに注釈を付けます。