コーパスからnltkを使用してコロケーションを抽出し、それらのオカレンスをscikit-learn分類子の機能として使用しようとしています。残念ながら、私はnltkにあまり精通しておらず、これを行う簡単な方法がわかりません。私はここまで来ました:
BigramCollocationFinder
コーパスからを使用してコロケーションを抽出します- ドキュメントごとに、(を使用して
nltk.bigrams
)すべてのバイグラムを抽出し、それらがコロケーションの1つであるかどうかを確認します TfidfVectorizer
何もしないアナライザーでを作成する- 抽出されたバイグラムの形式でドキュメントをフィードします
それは私にはかなり複雑に思えます。また、単語にまたがるバイグラムBigramCollactionFinder
のパラメータがあるという問題もあります。window_size
標準のnltk.bigrams
抽出ではそれができません。
これを克服する方法は、ドキュメントごとに新しいBigramCollocationFinderをインスタンス化し、バイグラムを再度抽出して、以前に見つけたものと照合することです...しかし、これも複雑に思えます。確かにそれを行うためのより簡単な方法がありますが、私は見落としています。
あなたの提案をありがとう!