0


分類に Google Prediction API (v1.6) を使用する場合、「挿入」を使用してモデルをトレーニングする場合と「更新」を使用する場合の動作が異なります。

csv ファイルをストレージにアップロードし、それを使用してトレーニング (挿入) するか、insert メソッドを使用してトレーニング データをリクエストに含めても、結果は同じです。(つまり、どの挿入方法を使用するかは問題ではありません)。

ただし、挿入によって空のモデルを作成し、更新によってすべてのデータを追加すると、異なる結果が得られます。

予測確率の値は大きく異なり、挿入によって作成されたモデルは、初期トレーニング後の更新の影響を受けないようです。

挿入を使用すると、 「
Addr12 」の予測確率は次の
よう に なり
ます
。: 0.032680 ラベル: 名 確率: 0.071895 ラベル: ミドルネーム 確率: 0.052288 ラベル: 姓 確率 : 0.071895 ラベル: 生年月日 確率: 0.098039 ラベル: 性別 確率: 0.006536 ラベル: 適格クラス 確率: 0.019608 ラベル: 場所 確率: 0.104575ラベル: 住所 1 確率: 0.111111 ラベル: 住所 2 確率: 0.026144 ラベル: 都市 確率: 0.058824 ラベル: 郵便番号













確率: 0.091503 ラベル: 雇用日 確率
: 0.078431 ラベル: 週あたりの労働時間

Update を使用すると、 「
Addr12 」の予測確率は次のよう に なり
ます 。City Prob: 0.527513 Label: Address 2 Prob: 0.472487 Label: Address 1 Prob: 0.000000 Label: Location Prob: 0.000000 Label: Eligibility Class Prob: 0.000000 Label: Gender Prob: 0.000000 Label: Date Of Birth Prob: 0.000000 Label: Last Name Prob : 0.000000 ラベル: ミドルネーム 確率: 0.000000 ラベル: 名 確率: 0.000000 ラベル: 従業員番号 確率: 0.000000 ラベル: SSN















確率: 0.000000 ラベル: ログオン タイプ
確率: 0.000000 ラベル: ログオン名

最後に、insert を使用した後の Analyze の出力には、dataDescription/outputFeature/text に加えて、modelDescription と混乱マトリックスが含まれます。更新プログラムを使用した後の Analyze の出力には、modelDescription と混乱マトリックスが含まれていません (出力でこれらのフィールドを除外するのは簡単ではありません)。

挿入を使用して初期モデルをトレーニングし、更新を使用して改善することに成功した人はいますか?

----- エド

4

0 に答える 0