8

私の現在の理解では、OpenNLP、スタンフォード NLP などのツールキットを使用して、テキスト ドキュメントからエンティティを抽出することが可能です。

しかし、これらのエンティティ間の関係を見つける方法はありますか?

たとえば、次のテキストを考えてみます。

「ご存じの方もいらっしゃると思いますが、私は先週、有名なヒッグス粒子が昨年 7 月に発見されたヨーロッパの高エネルギー物理学研究所である CERN に滞在しました。何年にもわたって、私は 1990 年代後半に 3 か月間客員科学者としてそこに滞在し、初期の宇宙物理学の研究を行い、現在見ている宇宙とその幼少期に起こった可能性があることをどのように結びつけるかを解明しようとしました。」

エンティティ: I (著者)、CERNヒッグス粒子

関係 : - 私 "は " CERN "を 訪問 し た- CERN "は" ヒッグス ボソンを 発見 し た"

ありがとう。

4

5 に答える 5

3

たとえば、Stanford Parser を使用して、依存関係のある動詞を抽出できます。たとえば、次のような「依存関係チェーン」が得られる場合があります

"I :: spent :: at :: CERN". 

「CERN で過ごした」、「CERN を訪れた」、「CERN が私の訪問を主催した」などのイベントが同じ種類のイベントであることを認識するのは、はるかに難しい作業です。これをどのように行うことができるかについては、SO の質問の範囲を超えていますが、言い換え認識の文献を読むことができます (ここに 1 つの概要論文があります)。SOに関する関連する質問もあります。

同様のチェーンをクラスター化できたら、それらにラベルを付ける方法を見つける必要があります。クラスター内で最も一般的なチェーンの動詞を選択するだけです。

ただし、抽出したい定義済みの関係タイプのセットがあり、これらの関係に対して手動で注釈を付けた多数のテキストがある場合、アプローチは大きく異なる可能性があります。注釈付きデータについて。

于 2013-03-07T11:16:11.357 に答える