自動車メーカーとモデルのデータセットはいくつかあります。それぞれに、次のような数百のデータエントリが含まれています。
メルセデスGLK350W2
プリウスプラグインハイブリッドアドバンストトヨタ
ゼネラルモーターズビュイックリーガル2012GS2.4L
これらのファイルのみを使用して、上記のエントリをメーカー(例:トヨタ)とモデル(例:プリウスプラグインハイブリッドアドバンスト)に自動的に分割するにはどうすればよいですか?
前もって感謝します。
自動車メーカーとモデルのデータセットはいくつかあります。それぞれに、次のような数百のデータエントリが含まれています。
メルセデスGLK350W2
プリウスプラグインハイブリッドアドバンストトヨタ
ゼネラルモーターズビュイックリーガル2012GS2.4L
これらのファイルのみを使用して、上記のエントリをメーカー(例:トヨタ)とモデル(例:プリウスプラグインハイブリッドアドバンスト)に自動的に分割するにはどうすればよいですか?
前もって感謝します。
機械学習(ML)は通常、トレーニングデータに依存しており、MLロジックが基礎となるデータのモデルを生成して検証できるようにします。このモデルを使用すると、提示された新しいデータのクラスを推測したり(分類器アプリケーションで、手元にあるものとして)、ある変数の値を推測したりすることができます(回帰の場合、次のようになります)。たとえば、特定の地域が来月受ける雨の量を予測するMLアプリケーション)。
質問で提示された状況は、いくつかのレベルで少し不可解です。
第一に、自動車メーカーの数は有限であり、比較的少ない。したがって、これらのメーカーのリストを手動で作成し、このレキシコンを使用して、単純な文字列解析手法を使用して、モデル番号からメーカーを解析するのは簡単です。つまり、MLは不要であり、ここでは必要ありません。(使用する要件は、"...only those files"
このオプションを排除しているようです。
次に、目的の分類子を生成するために使用できるいくつかのパターンまたはヒューリスティックを考えることができます(暫定的には比較的弱いものとして、また、このようなアプローチは、一般的な言葉の理解では、MLアプローチではありません。