7

Java Sagemaker SDK を使用して Sagemaker エンドポイントを呼び出しています。私が送信しているデータは、モデルが予測に使用する前にほとんどクリーニングする必要がありません。Sagemaker でそれを行うにはどうすればよいですか。

モデルをトレーニングするためにデータを渡す前に、トレーニング データをクリーニングする Jupyter ノートブック インスタンスに前処理機能があります。エンドポイントの呼び出し中にその関数を使用できるかどうか、またはその関数が既に使用されているかどうかを知りたいですか? 誰かが望むなら、私のコードを表示できますか?

編集1 基本的に、前処理では、ラベルのエンコードを行っています。ここに前処理のための私の関数があります

def preprocess_data(data):
 print("entering preprocess fn")
 # convert document id & type to labels
 le1 = preprocessing.LabelEncoder()
 le1.fit(data["documentId"])
 data["documentId"]=le1.transform(data["documentId"])
 le2 = preprocessing.LabelEncoder()
 le2.fit(data["documentType"])
 data["documentType"]=le2.transform(data["documentType"])
 print("exiting preprocess fn")
 return data,le1,le2

ここで「データ」はパンダのデータフレームです。

エンドポイントの呼び出し時にこれらの le1、le2 を使用したいと思います。Java コードではなく、sagemaker 自体でこの前処理を行いたいと考えています。

4

4 に答える 4