6

私は医療テキスト用の半自動注釈ツールを開発していますが、注釈用の RDF トリプレットを見つけるのに完全に迷っています。

現在、NLP ベースのアプローチを使用しようとしています。私はすでにスタンフォード NER と OpenNLP を調査しましたが、どちらも病名を抽出するためのモデルを持っていません。

私の質問は次のとおりです: * 病名を抽出するための新しい NER モデルを作成するにはどうすればよいですか? OpenNLP または Standford NER から何か助けを得ることができますか? * NLP 以外に、テキストから RDF トリプレットを抽出するための別のアプローチはありますか?

どんな助けでも大歓迎です!ありがとう。

4

1 に答える 1

4

OpenNLP と LingPipe の両方で必要なものと同様のことを行いました。私は、LingPipe の正確な辞書ベースのチャンクが私のユース ケースに十分適していることを発見し、それを使用しました。ここで入手可能なドキュメント: http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html

ここで小さなデモを見つけることができます:

地名辞典/辞書のアプローチでは不十分な場合は、独自のモデルを作成してみてください。OpenNLP には、モデルをトレーニングするための API もあります。ドキュメントはこちら: http://opennlp.apache.org/documentation/1.5.2-incubating/manual/opennlp.html#tools.namefind.training

自然言語から RDF トリプルを抽出することは、名前付きエンティティーを識別することとは別の問題です。NER は関連する、おそらく必要なステップですが、十分ではありません。自然言語から RDF ステートメントを抽出するには、ステートメントの主語や目的語などのエンティティーを識別する必要があるだけではありません。ただし、これらのエンティティの動詞や関係を識別する必要もあり、それらを URI にマップする必要もあります。

于 2012-04-29T14:53:06.473 に答える