私は現在、チャンキングに使用する文法を見つけて理解しようとしているopennlpソースコードを調べています。これは、最も簡単な作業の 1 つではありません。私はチャンカーモデルと関連するクラスを調べ始めましたが、あまり進んでいません..
誰もこれを検索したことがありますか?もしそうなら、私を道に導く提案やアイデアはありますか?
実際、Apache OpenNLPにバンドルされているアルゴリズムは、統計的アプローチを使用した機械学習テクノロジーに基づいています。モデルには文法はありませんが、トレーニングデータから抽出されたパラメーターがあります。
アルゴリズムの詳細については、Jurafsky&Martinの本「SpeechandLanguageProcessing」のセクション6.7をお勧めします。
Ratnaparkhiの論文:自然言語のあいまいさを解決するためのMaximunエントロピーモデルも参照できます。
パーセプトロンHMMの場合、マイケルコリンズの論文:隠れマルコフモデルの識別トレーニング方法:パーセプトロンアルゴリズムを使用した理論と実験
探しているのが文法アプローチである場合は、ContraintGrammar形式を試してください。VISLのWebサイトには、いくつかの出版物が掲載されています。