私は ML ドキュメントの分類問題に取り組んでいます。Azure ML で Tfidf 特徴抽出と sublinear_tf スケーリングを n-gram する方法を知っている人はいますか?
過去に、TfidfVectorizer を使用して inSci-Kit 学習を行いました (以下の例を参照) が、AzureML では、Python モジュールを使用して独自のメソッドまたはクラスを明示的に定義できず、圧縮されたコードをアップロードしたくないという問題があります。
私はPythonの人ですが、同等のものがある場合はRを使用することにオープンです。市場には R のサンプルがありますが、これはユニグラムに依存しています。
TfidfVectorizer(max_df=.67,min_df=.015,lowercase=False ,sublinear_tf=True,norm='l2',tokenizer=AbstractTokenizer())
ベスト、アリ