1

私は Azure で ML モデルを構築し、データ変換/機能生成のほとんどの手順を R で実行しました。最初は、R 自体でデータを変換し (作業が速くなりました)、作成した csv を ML スタジオにアップロードしました。

モデルが完成したので、変換されたデータセットを手動でアップロードする代わりに、ML スタジオ自体で R コードを実行しようとしました。それは完璧に実行されます。ただし、結果のデータセット (アップロードされたものと作成されたもの) を比較すると、それらは異なります。列にはさまざまな手段、形式があり、モデルのパフォーマンスは低くなります。実際のデータ エントリ/セルは正常に見えます。

列の形式に関係していると思うので、列を文字型に変換したり、結果のデータセットを (ML スタジオで) csv に変換したり、ML スタジオにフォーマット方法を理解させたりしました。

これまでのところ、結果はありません。

誰かがすでにこの問題に直面していますか? 解決策は何ですか?

4

1 に答える 1

2

それを解決することができました:

  • 手動でアップロードされたデータセットは、"文字列機能" のみを使用して Azure でフォーマットされました。(一部のNAのスタジオMLがこのようにフォーマットしているため)。
  • ただし、R スクリプトは NA を異なる形式でフォーマットするため、列も同様にフォーマットします。

データが文字単位で同一であったため、何が異なる結果を引き起こしたのか完全にはわかりません。NA のみが、列のようにフォーマットが異なります。

以下は私の問題を解決しました(Studio MLのRscriptの最後に):

data = data.frame(lapply(data, as.character), stringsAsFactors=FALSE)
data[is.na(data)] = "NA"
于 2015-07-28T10:17:59.423 に答える