コーパスからnltkを使用してコロケーションを抽出し、それらのオカレンスをscikit-learn分類子の機能として使用しようとしています。残念ながら、私はnltkにあまり精通しておらず、これを行う簡単な方法がわかりません。私はここまで来ました:
BigramCollocationFinderコーパスからを使用してコロケーションを抽出します- ドキュメントごとに、(を使用して
nltk.bigrams)すべてのバイグラムを抽出し、それらがコロケーションの1つであるかどうかを確認します TfidfVectorizer何もしないアナライザーでを作成する- 抽出されたバイグラムの形式でドキュメントをフィードします
 
それは私にはかなり複雑に思えます。また、単語にまたがるバイグラムBigramCollactionFinderのパラメータがあるという問題もあります。window_size標準のnltk.bigrams抽出ではそれができません。
これを克服する方法は、ドキュメントごとに新しいBigramCollocationFinderをインスタンス化し、バイグラムを再度抽出して、以前に見つけたものと照合することです...しかし、これも複雑に思えます。確かにそれを行うためのより簡単な方法がありますが、私は見落としています。
あなたの提案をありがとう!