私がしたい「マッドライブラリ」シナリオがあります
a) 文中のすべての (またはほとんどの) 単語の品詞を決定する
b) ユーザーにそれらの単語の代替案を選択させるか、計算によって同等の単語に置き換える
私はスタンフォードパーサーを見ましたが、少し遅いです...何か提案はありますか?
私がしたい「マッドライブラリ」シナリオがあります
a) 文中のすべての (またはほとんどの) 単語の品詞を決定する
b) ユーザーにそれらの単語の代替案を選択させるか、計算によって同等の単語に置き換える
私はスタンフォードパーサーを見ましたが、少し遅いです...何か提案はありますか?
POS タガーを使用する
品詞 (POS) タグのみを使用し、解析ツリーを使用していない場合は、実際にパーサーを使用する必要はありません。代わりに、スタンドアロンの POS タガーを使用できます。
POS タグ付けは、フレーズ構造の解析よりもはるかに高速です。Xeon E5520 では、スタンフォード POS タガーは 3 秒で 1700 文にタグ付けできますが、同じデータをスタンフォード パーサーを使用して解析するには約 10 分かかります( Cer et al. 2010 )。
ここには、他の POS タガーのかなり包括的なリストがあります。
ツールキットのアプローチには、NLTKツールキットがあります。これはPythonであるため、同じような速度はあなたが望むものではないかもしれません。しかし、教育を目的としたツールキットであるため、実装できるさまざまなアプローチがあります。つまり。基礎となる言語が利用可能な最速ではない場合でも、クイックパーサー/タガーを実装するのは簡単かもしれません。