1

コーパスからnltkを使用してコロケーションを抽出し、それらのオカレンスをscikit-learn分類子の機能として使用しようとしています。残念ながら、私はnltkにあまり精通しておらず、これを行う簡単な方法がわかりません。私はここまで来ました:

  • BigramCollocationFinderコーパスからを使用してコロケーションを抽出します
  • ドキュメントごとに、(を使用してnltk.bigrams)すべてのバイグラムを抽出し、それらがコロケーションの1つであるかどうかを確認します
  • TfidfVectorizer何もしないアナライザーでを作成する
  • 抽出されたバイグラムの形式でドキュメントをフィードします

それは私にはかなり複雑に思えます。また、単語にまたがるバイグラムBigramCollactionFinderのパラメータがあるという問題もあります。window_size標準のnltk.bigrams抽出ではそれができません。

これを克服する方法は、ドキュメントごとに新しいBigramCollocationFinderをインスタンス化し、バイグラムを再度抽出して、以前に見つけたものと照合することです...しかし、これも複雑に思えます。確かにそれを行うためのより簡単な方法がありますが、私は見落としています。

あなたの提案をありがとう!

4

1 に答える 1

3

larsmans は、単純で非コロケーション機能用の NLTK / scikit-learn 機能マッパーを既に提供しています。それはあなた自身の問題のためのいくつかのインスピレーションを与えるかもしれません:

http://nltk.org/_modules/nltk/classify/scikitlearn.html

于 2012-09-11T16:32:00.633 に答える