4

解析したい文がいくつかあります。私が持っているものと必要なものは次のとおりです。次のような文があります。

私は病院にいました。

私は家からカナダに行くつもりでした。

私が知りたいのは、「入院中」、「自宅から」、「カナダへ」のフレーズの頭を知りたいということです。

私は Berkley パーサーを使用していますが、それが提供するのはすべての文の解析結果であり、句の頭を手動で抽出したい場合は、別のパーサーを開発する必要があります! 解析したいファイルは非常に大きなファイルなので、自分でパーサーを開発するとエラーが多くなる可能性があります。私が探している結果を得ることができるパーサーはありますか?

ちなみに、句を個別に解析すると、文の解析とは異なる解析になる可能性があるため、文を解析してから句の頭を抽出することを主張します。

4

2 に答える 2

6

スタンフォードパーサーとOpenNLPパーサーは、品詞と依存関係の情報を提供します。これを使用して語頭を判断できます。

たとえば、スタンフォード パーサーを使用すると、次のようになります。

(S
  (NP (PRP I))
  (VP (VBD was)
      (PP (IN in)
          (NP (DT the)
              (NN hospital)))))

これは、文 (S) が名詞句 (NP) と動詞句 (VP) で構成されていることを示しています。動詞句は、動詞 (V*) + 前置詞句 (PP) であり、前置詞inおよび名詞句です。2 番目の名詞句は、限定詞 (DT) と名詞 (NN) です。

私が質問を正しく理解していれば、あなたは名詞句 (およびおそらく動詞句) の先頭を探しています。この情報からすでにヘッドを識別できますが、パーサーは次の依存関係情報も提供します。

nsubj(was, I)
prep_in(was, hospital)
det(hospital, the)

これは、単語wasIが名詞-主語nsubj関係にあることを示しています ( Iは動詞wasの主語です)。単語wasHospitalは、「in」前置詞 ( prep-in ) の関係にあります。"hospital" と "the" という単語は限定詞 ( det ) の関係にあります。前の解析と依存関係の情報を使用すると、最初の名詞句の先頭は「I」(些細な) であり、2 番目の名詞句の先頭は「病院」であることがわかります (「トップ」であるため)。名詞句内の関係の要素)

于 2012-05-26T16:45:36.867 に答える
3

Attila の回答で概説されているように、句の主語を見つける問題は簡単ではありません。マイケル・コリンズ教授は見出し語を見つけるためのヒューリスティックのリストを持っており (彼のヒューリスティックは Penn Tree bank データセットに基づいています)、これらのヒューリスティックの実装は Stanford CoreNLP Suite で利用できます (私は 20140104 バージョンで確認しました)。

ここで提供される応答には、スタンフォード CoreNLP のクラスに関する詳細が記載されており、ヘッド ワードの検索が行われます。

于 2014-04-04T03:12:14.010 に答える