Java Sagemaker SDK を使用して Sagemaker エンドポイントを呼び出しています。私が送信しているデータは、モデルが予測に使用する前にほとんどクリーニングする必要がありません。Sagemaker でそれを行うにはどうすればよいですか。
モデルをトレーニングするためにデータを渡す前に、トレーニング データをクリーニングする Jupyter ノートブック インスタンスに前処理機能があります。エンドポイントの呼び出し中にその関数を使用できるかどうか、またはその関数が既に使用されているかどうかを知りたいですか? 誰かが望むなら、私のコードを表示できますか?
編集1 基本的に、前処理では、ラベルのエンコードを行っています。ここに前処理のための私の関数があります
def preprocess_data(data):
print("entering preprocess fn")
# convert document id & type to labels
le1 = preprocessing.LabelEncoder()
le1.fit(data["documentId"])
data["documentId"]=le1.transform(data["documentId"])
le2 = preprocessing.LabelEncoder()
le2.fit(data["documentType"])
data["documentType"]=le2.transform(data["documentType"])
print("exiting preprocess fn")
return data,le1,le2
ここで「データ」はパンダのデータフレームです。
エンドポイントの呼び出し時にこれらの le1、le2 を使用したいと思います。Java コードではなく、sagemaker 自体でこの前処理を行いたいと考えています。