python - Azure ML での特徴抽出のための TfidfVectorizer と sublinear_tf スケーリング

翻译自：https://stackoverflow.com/questions/32854507 2015-09-29T22:02:39.823

1445 次

私は ML ドキュメントの分類問題に取り組んでいます。Azure ML で Tfidf 特徴抽出と sublinear_tf スケーリングを n-gram する方法を知っている人はいますか?

過去に、TfidfVectorizer を使用して inSci-Kit 学習を行いました (以下の例を参照) が、AzureML では、Python モジュールを使用して独自のメソッドまたはクラスを明示的に定義できず、圧縮されたコードをアップロードしたくないという問題があります。

私はPythonの人ですが、同等のものがある場合はRを使用することにオープンです。市場には R のサンプルがありますが、これはユニグラムに依存しています。

TfidfVectorizer(max_df=.67,min_df=.015,lowercase=False ,sublinear_tf=True,norm='l2',tokenizer=AbstractTokenizer())

ベスト、アリ

1 に答える 1