事前にトークン化された文のファイルがあり、そのうちのいくつかは命令文です (暗黙の主語、動詞が最初など)。部分的なタグ付けがない場合、スタンフォード パーサーは、これらの命令文のほとんど (すべてではない) の主語の最初の単語 (動詞) を名詞として誤ってタグ付けします。これらの文の最初の単語に、部分的なタグ付け (これは正しく行っていると確信しています。LexicalizedParser を編集および再コンパイルして、関連するコマンド ライン オプションが認識され、最終的に lexicalizedParser.java 内の適切な場所に配置されるようにしました) を使用します。 (_VB を使用)、タグ付けが存在しない場合と同じように動作します。
lexparser パッケージの概要(「解釈にはいくつかの制限があります...」のページの約 60% を見てください) によると、これは、これらの単語のいくつかに POS タグ VB を配置するのが奇妙すぎるためです。信じるパーサー。
パーサーがすべてのタグを読み取って追跡するようにするにはどうすればよいですか (できればコマンドラインから)。レキシコンを更新しますか?
EnglishPCFG.ser.gz ではなく EnglishFactored.ser.gz を使用すると、この問題は軽減されますが、なくなるわけではありません。
数年前に誰かがスタンフォード [parser-user] メーリング リストに同様の質問を投稿しましたが、この投稿に対する回答が見つからないようです。
編集: パーサーの別のバージョン (2010 年 8 月 20 日以降) を使用すると、この問題は発生しないようです //まったく//。