nlp - scikit-learnの機能としてnltkコロケーションを使用する

Question

コーパスからnltkを使用してコロケーションを抽出し、それらのオカレンスをscikit-learn分類子の機能として使用しようとしています。残念ながら、私はnltkにあまり精通しておらず、これを行う簡単な方法がわかりません。私はここまで来ました：

それは私にはかなり複雑に思えます。また、単語にまたがるバイグラムBigramCollactionFinderのパラメータがあるという問題もあります。window_size標準のnltk.bigrams抽出ではそれができません。

これを克服する方法は、ドキュメントごとに新しいBigramCollocationFinderをインスタンス化し、バイグラムを再度抽出して、以前に見つけたものと照合することです...しかし、これも複雑に思えます。確かにそれを行うためのより簡単な方法がありますが、私は見落としています。

あなたの提案をありがとう！

score 3 · Accepted Answer

larsmans は、単純で非コロケーション機能用の NLTK / scikit-learn 機能マッパーを既に提供しています。それはあなた自身の問題のためのいくつかのインスピレーションを与えるかもしれません:

1 に答える 1