sklearn でいくつかの機能をベクトル化していますが、問題が発生しました。DictVectorizer は、データを項目ごとに 1 つの dict キーにエンコードできる場合にうまく機能します。アイテムが同じ列の 2 つ以上の値を持つことができる場合はどうなりますか? たとえば、DictVectorizer は次のようなアイテムで正常に動作します。
{'a': 'b', 'b': 'c'}
しかし、列ごとに複数の値があるこのようなものはどうでしょうか?
{'a': ['b','c'], 'b': 'd'}
ワンホット エンコーディングの戦略は引き続き適用できます。単純に 2 つの a 列が必要です。a=b と a=c です。私が知る限り、そのようなベクトライザーは存在しません! この状況で何をすべきか?独自の MultiDictVectorizer を作成する必要がありますか?
投稿する前に、ここのブログ投稿でこれについて書きました。