データ セットから映画タイプの文字列を抽出しようとしています。データは次の形式で、さまざまなレビュアーによってジャンル タイプがデータセットにランダムに分散されています。幸い、データセットには 4 つのジャンル タイプ (コメディ、アクション、ホラー、SF) しかありませんが、繰り返しもあります。したがって、データセットからこれらの文字列を抽出する必要があります。
id movie v1 v2 v3 v4 v5 v6
1 LTR comedy highbudget action comedy jj horror
2 MI newmovie fiction scifi funny xx jhee
次の形式の出力を期待しています。
id movie genretype1 genretype2 genretype3 genretype4
1 LTR comedy action comedy horror
2 MI scifi --- --- ---
助言がありますか?