私は機械学習と予測に約 1 か月間取り組んでいます。Bluemix、Amazon 機械学習、predictionIO で IBM watson を試しました。私がやりたいことは、他のフィールドに基づいてテキスト フィールドを予測することです。私のcsvファイルには4つのtext fields
名前がQuestion,Summary,Description,Answer
あり、約4500行/レコードがあります。アップロードされたデータセットに数値フィールドはありません。典型的なレコードは以下のようになります。
{'Question':'sys down','Summary':'does not boot after OS update','Description':'Desktop does not boot','Answer':'Switch to safemode and rollback last update'}
IBM watsonのフォーラムで質問を見つけたところ、現在カスタム コーパスのアップロードはできないという回答がありました。その後、Amazon 機械学習に移行しました。私は彼らのドキュメントに従い、API を使用してカスタム アプリに予測を実装することができました。movielens データでテストしたところ、すべてが数値でした。データのアップロードに成功し、 python-botoライブラリを使用して映画のおすすめを取得しました。csvファイルをアップロードしようとしたとき、私が抱えていた問題はno text field can be selected as target
. 次に、csv の各値に対応する数値を追加しました。このアプローチで予測は成功しましたが、精度は正しくありませんでした。csv をより適切な方法でフォーマットする必要があった可能性があります。
movielens データのレコードを以下に貼り付けます。userID 196 は、時間 (unix タイムスタンプ) 881250949 で movieID 242 に 2 つ星の評価を与えたと言います。
196 242 3 881250949
現在、私は predictIO を試しています。推奨テンプレートを使用したドキュメントで説明されているように、movielen データベースのテストは問題なく正常に実行されました。しかし、他のテキスト フィールドに基づいてテキスト フィールドを予測する可能性はまだ不明です。
予測は数値フィールドのみで実行されますか、それともテキスト フィールドは他のテキスト フィールドに基づいて予測できますか?