2

私は NLP の夏のプロジェクトに取り組んでいる学生です。私はこの分野にかなり慣れていないので、本当に明白な解決策があればお詫びします。このプロジェクトは C で書かれています。これは、私が C に精通していることと、プロジェクトの計算集約的な性質 (私のコーパスはウィキペディアのプレーンテキスト ダンプです) の両方によるものです。

私は関係抽出へのアプローチに取り組んでおり、一貫性の原則を利用して、文法オブジェクトのどのクラスターがそれらのオブジェクト間の接続を意味するかを指示する一連のルールを (ある程度のエラーしきい値内で) 学習しようとしています。

アルゴリズムの最初のステップの 1 つは、特定の単語が参照できるすべての可能な文法オブジェクトのセットを見つけることです (POS 曖昧性解消は、後のステップでアルゴリズムによって暗黙的に行われます)。私はいくつかのパーサーを見てきましたが、それらはすべてあいまいさを解消するステップを自分で行っているようで、(私の側から見ると) 非生産的です。私は、(理想的には) 1 つのコマンドでこの情報を表示できる既製品を探しています。

そのようなものは存在しますか?そうでない場合、自明に機械解析可能なこの情報を含む既存の辞書はありますか?

ご協力ありがとうございました。

4

2 に答える 2

0

CMU スフィンクスを見てください。オープンソースの NLP プロジェクト。私はそれをC ++だと思いますが、それを統合するか、少なくとも物事を進める方法のアイデアを得ることができます.

于 2012-06-07T20:32:15.850 に答える
0

外部の POS タガーをシェル スクリプトとして呼び出したり、http サービスにラップしたりするのはどうですか?

Java と Python には大多数の NLP ライブラリがあるため、それを利用することは理にかなっています。スクリプトで NLTK を使用してタグ付けできる場合は、このスクリプトを C から呼び出すと、はるかに簡単になります。

于 2012-06-12T16:16:53.850 に答える