フィット法を使用してclfと呼ばれる推定量をトレーニングし、モデルをディスクに保存しました。次回プログラムを実行すると、ディスクからclfがロードされます。
私の問題は:
- ディスクに保存されたサンプルを予測する方法は?つまり、それをロードして予測する方法は?
- 予測後にラベル整数の代わりにサンプルラベルを取得する方法は?
フィット法を使用してclfと呼ばれる推定量をトレーニングし、モデルをディスクに保存しました。次回プログラムを実行すると、ディスクからclfがロードされます。
私の問題は:
ディスクに保存されたサンプルを予測する方法は? つまり、それをロードして予測する方法は?
メソッドに渡されたサンプルに使用されるものと同じ配列表現を新しいサンプルに使用する必要がありますfit
。単一のサンプルを予測する場合、入力は shape の 2D numpy 配列でなければなりません(1, n_features)
。
HDD 上の元のファイルを読み取り、それを分類器に適した numpy 配列表現に変換する方法は、ドメイン固有の問題です。テキスト ファイル、jpeg ファイル、ビデオ ファイルのフレーム、データベースの行を分類しようとしているかどうかによって異なります。 、syslog 監視対象サービスのログ行...
予測後にラベル整数の代わりにサンプルラベルを取得する方法は?
ラベル名のリストを保持し、フィッティング時にターゲット値として使用される整数が範囲内にあることを確認して[0, n_classes)
ください。たとえば['spam', 'ham']
、範囲内に予測がある場合は、次の[0, 1]
ことができます。
new_samples = # 2D array with shape (n_samples, n_features)
label_names = ['ham', 'spam']
predictions = [label_names[pred] for pred in clf.predict(new_samples)]