私のデータは次のようになります: 人 <-- イベント <-- 活動。親は People であり、唯一の変数は person_id です。イベントとアクティビティにはどちらも、いくつかの機能を持つ event_id と activity_id とともに時間インデックスがあります。
「人」エンティティのメンバーは、さまざまな時間に場所を訪れます。私は人々のために深い特徴を生成しようとしています。people が [1,2,3] のようなものである場合、(Person,cutofftime): [1,January2], [1, January3] のような深い特徴を作成するカットオフ時間を渡すにはどうすればよいですか?
People が 3 人しかいない場合、10 行の cutoff_time データフレームを渡すことができないようです (たとえば、10 の可能なカットオフ時間を持つ person 1)。これを試してみると、cutoff_times データフレームから重複を削除したにもかかわらず、「カットオフ時間データフレームに行が重複しています」というエラーが表示されます。
People エンティティに時間インデックスを含める必要がありますか? これにより、親エンティティにはインデックスに複数の人が残りますが、時間インデックスは異なります。私の本能は、 people エンティティに datetime 列を含めるべきではないということです。DFS機能にカットオフタイムを設定したいのですが。
私の cutoff_times df.head は次のようになり、一部の people_id のインスタンスが複数あります。
+-------------------------------------------+
| person_id time label |
+-------------------------------------------+
| 0 f_GZSVLYU 2019-12-06 0.0 |
| 1 f_ATBJEQS 2019-12-06 1.0 |
| 2 f_GLFYVAY 2019-12-06 0.5 |
| 3 f_DIHPTPA 2019-12-06 0.5 |
| 4 f_GZSVLYU 2019-12-02 1.0 |
+-------------------------------------------+
親の People エンティティは次のようになります。
+-------------------+
| person_id |
+-------------------+
| 0 f_GZSVLYU |
| 1 f_ATBJEQS |
| 2 f_GLFYVAY |
| 3 f_DIHPTPA |
| 4 f_DVOYHRQ |
+-------------------+
私がやろうとしていることを機能ツールに理解させるにはどうすればよいですか?
「カットオフ時間のデータフレームに行が重複しています。」cutoff_times df を調査しましたが、重複する行はありません。Person_id、時間、およびラベルはすべて、それぞれ複数回出現しますが、2 つの行が同じではありません。これらの重複は、エラーが参照している EntitySet の別の場所にある可能性がありますか?