4

継続性パーサーと依存関係パーサーについて読みました。しかし、どれが最良の選択であるかは混乱しています。

私の仕事は、英語のウィキペディアのテキストから関係を抽出することです(他のソースも後で含まれる場合があります)。私が必要とするのは、興味深い 2 つのエンティティ間のセマンティック パス (最も重要な情報のみを含む) です。例えば、

form text: 「アメリカでは、糖尿病は誰もが知っているように、ありふれた病気です.」

「糖尿病は病気です」という情報が必要です

どのパーサーの実装を提案しますか? スタンフォード?モルトパーサー?または他の?

手がかりをいただければ幸いです。

4

2 に答える 2

4

もちろん、Stanford 依存関係パーサーのような依存関係パーサーが適切な選択です。David McClosky の生物医学モデルでBLLIP 再ランキング パーサーを使用してフレーズ構造を取得し、Stanford Dependenciesで依存関係に変換することをお勧めします。このようにして、生物医学テキストのより良い依存関係ツリー/グラフを取得できます。

于 2012-08-28T23:59:23.053 に答える
4

構文パーサーと依存関係パーサーのことですか? オンラインのStanford Parserは、これらの解析がどのように異なるかを示しています。

構文解析

(ROOT
  (S
    (PP (IN In)
      (NP (NNP America)))
    (, ,)
    (NP (NNP diabetes))
    (VP (VBZ is) (, ,)
      (PP (IN as)
        (NP (NN everybody) (NNS knows)))
      (, ,)
      (NP (DT a) (JJ common) (NN disease)))))

依存関係解析 (折りたたみ)

prep_in(disease-13, America-2)
nsubj(disease-13, diabetes-4)
cop(disease-13, is-5)
nn(knows-9, everybody-8)
prep_as(disease-13, knows-9)
det(disease-13, a-11)
amod(disease-13, common-12)
root(ROOT-0, disease-13)

実際にはそれほど違いはありませんが (詳細については、Collins の論文または Nieve の本を参照してください)、依存関係解析の方が扱いやすいと思います。ご覧のとおり、糖尿病 -> 病気と直接的な関係があります。その後、コピュラを取り付けることができます。

于 2012-06-20T17:14:31.130 に答える