私は NLP の夏のプロジェクトに取り組んでいる学生です。私はこの分野にかなり慣れていないので、本当に明白な解決策があればお詫びします。このプロジェクトは C で書かれています。これは、私が C に精通していることと、プロジェクトの計算集約的な性質 (私のコーパスはウィキペディアのプレーンテキスト ダンプです) の両方によるものです。
私は関係抽出へのアプローチに取り組んでおり、一貫性の原則を利用して、文法オブジェクトのどのクラスターがそれらのオブジェクト間の接続を意味するかを指示する一連のルールを (ある程度のエラーしきい値内で) 学習しようとしています。
アルゴリズムの最初のステップの 1 つは、特定の単語が参照できるすべての可能な文法オブジェクトのセットを見つけることです (POS 曖昧性解消は、後のステップでアルゴリズムによって暗黙的に行われます)。私はいくつかのパーサーを見てきましたが、それらはすべてあいまいさを解消するステップを自分で行っているようで、(私の側から見ると) 非生産的です。私は、(理想的には) 1 つのコマンドでこの情報を表示できる既製品を探しています。
そのようなものは存在しますか?そうでない場合、自明に機械解析可能なこの情報を含む既存の辞書はありますか?
ご協力ありがとうございました。