分類に Google Prediction API (v1.6) を使用する場合、「挿入」を使用してモデルをトレーニングする場合と「更新」を使用する場合の動作が異なります。
csv ファイルをストレージにアップロードし、それを使用してトレーニング (挿入) するか、insert メソッドを使用してトレーニング データをリクエストに含めても、結果は同じです。(つまり、どの挿入方法を使用するかは問題ではありません)。
ただし、挿入によって空のモデルを作成し、更新によってすべてのデータを追加すると、異なる結果が得られます。
予測確率の値は大きく異なり、挿入によって作成されたモデルは、初期トレーニング後の更新の影響を受けないようです。
挿入を使用すると、 「
Addr12 」の予測確率は次の
よう
に
なり
ます
。: 0.032680 ラベル: 名
確率: 0.071895 ラベル: ミドルネーム
確率: 0.052288 ラベル: 姓 確率
: 0.071895 ラベル: 生年月日
確率: 0.098039 ラベル: 性別
確率: 0.006536 ラベル: 適格クラス
確率: 0.019608 ラベル: 場所
確率: 0.104575ラベル: 住所 1
確率: 0.111111 ラベル: 住所 2
確率: 0.026144 ラベル: 都市
確率: 0.058824 ラベル: 郵便番号
確率: 0.091503 ラベル: 雇用日 確率
: 0.078431 ラベル: 週あたりの労働時間
Update を使用すると、 「
Addr12 」の予測確率は次のよう
に
なり
ます
。City
Prob: 0.527513 Label: Address 2
Prob: 0.472487 Label: Address 1
Prob: 0.000000 Label: Location
Prob: 0.000000 Label: Eligibility Class
Prob: 0.000000 Label: Gender
Prob: 0.000000 Label: Date Of Birth
Prob: 0.000000 Label: Last Name
Prob : 0.000000 ラベル: ミドルネーム
確率: 0.000000 ラベル: 名
確率: 0.000000 ラベル: 従業員番号
確率: 0.000000 ラベル: SSN
確率: 0.000000 ラベル: ログオン タイプ
確率: 0.000000 ラベル: ログオン名
最後に、insert を使用した後の Analyze の出力には、dataDescription/outputFeature/text に加えて、modelDescription と混乱マトリックスが含まれます。更新プログラムを使用した後の Analyze の出力には、modelDescription と混乱マトリックスが含まれていません (出力でこれらのフィールドを除外するのは簡単ではありません)。
挿入を使用して初期モデルをトレーニングし、更新を使用して改善することに成功した人はいますか?
----- エド