問題タブ [tfidfvectorizer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 再ロード時に格納された Tfidf-Vectorizer ValueError
PassiveAgressive Classifier 用に Tfidf-Vectorizer をトレーニングしてテストしたところ、すべて正常に動作しました。次に、後で使用するために、適合したベクトライザーとトレーニング済みの分類器を保存しました。ベクトライザーを再度ロードしたとき、その上で新しいデータセットを変換し (見えないデータを分類子で分類したいので)、新しいデータセットを予測しようとしました。コードを実行すると、次のようになります。
これは、ベクトライザーと分類子を取得するために使用したコードです。
そして、これは私がそれを再び開いて使用する方法です:
また、分類子をトレーニングしたファイルを再度チェックし、語彙の長さを調べて、
さらに別の数字...ここで何がうまくいかないのか、私には本当にわかりません。トレーニング/テスト データセットのテキストと、すべてを再度読み込んだ後に分類する必要があるテキストをまったく同じ方法で処理したので、これはベクトライザーに与える入力とは関係ないと思います。アプリで両方を使用しているため、ベクトライザーを再度適合させたり、分類子を再度トレーニングしたりすることはできません。そのため、保存されたバージョンで何らかの形で機能する必要があります。
tf-idf - ユーザー設定ベクトルへの tf-idf
私はここではかなり新しいので、この質問を読む時間をとってくれるすべての人に前もって感謝しています。
ドキュメントの正規化されたベクトルを生成するために tf-idf を使用して推奨システムを構築しています。ユーザーとドキュメントとのやり取り (好き、嫌い、時間を費やしているなど) に基づいて、ドキュメント自体と同じ構造に従うユーザー プロファイルを生成したいと考えています。
「製品」側のレコメンダー システムとコンテンツ ベースのフィルタリングに関する文献はたくさんありますが、ユーザーの好み自体の構造化についてはほとんど書かれていません。私は正確に「解決策」を求めているわけではありませんが、正しい方向 (または単に方向) を示してください。自分で何かを解決するかもしれませんが、すでに十分に開発されたソリューションがある場合は、車輪を再発明する必要はありません.
どうもありがとうございました!ダニエル
python - Sklearn Tfidf ベクトライザー norm=None norm-l2
こんにちは、scikit-learn がマトリックスの TFIDF スコアを計算する方法を理解しようとしています: ドキュメント 1、機能 6、「ワイン」:
私は自分でそれを計算するために非常によく似た質問への答えを使用していました: どのようにTF-IDFはscikit-learn TfidfVectorizerによって計算されますしかし、彼らのTFIDFVectorizerでは、ノルム=なし.
私はnorm=l2のデフォルト設定を使用しているので、これはnorm=Noneとどのように違いますか?また、どうすれば自分で計算できますか?