3

私のデータは次のようになります: 人 <-- イベント <-- 活動。親は People であり、唯一の変数は person_id です。イベントとアクティビティにはどちらも、いくつかの機能を持つ event_id と activity_id とともに時間インデックスがあります。

「人」エンティティのメンバーは、さまざまな時間に場所を訪れます。私は人々のために深い特徴を生成しようとしています。people が [1,2,3] のようなものである場合、(Person,cutofftime): [1,January2], [1, January3] のような深い特徴を作​​成するカットオフ時間を渡すにはどうすればよいですか?

People が 3 人しかいない場合、10 行の cutoff_time データフレームを渡すことができないようです (たとえば、10 の可能なカットオフ時間を持つ person 1)。これを試してみると、cutoff_times データフレームから重複を削除したにもかかわらず、「カットオフ時間データフレームに行が重複しています」というエラーが表示されます。

People エンティティに時間インデックスを含める必要がありますか? これにより、親エンティティにはインデックスに複数の人が残りますが、時間インデックスは異なります。私の本能は、 people エンティティに datetime 列を含めるべきではないということです。DFS機能にカットオフタイムを設定したいのですが。

私の cutoff_times df.head は次のようになり、一部の people_id のインスタンスが複数あります。

+-------------------------------------------+
|         person_id       time        label |
+-------------------------------------------+
| 0      f_GZSVLYU 2019-12-06           0.0 |
| 1      f_ATBJEQS 2019-12-06           1.0 |
| 2      f_GLFYVAY 2019-12-06           0.5 |
| 3      f_DIHPTPA 2019-12-06           0.5 |
| 4      f_GZSVLYU 2019-12-02           1.0 |
+-------------------------------------------+

親の People エンティティは次のようになります。

+-------------------+
|       person_id   |
+-------------------+
| 0      f_GZSVLYU  |
| 1      f_ATBJEQS  |
| 2      f_GLFYVAY  |
| 3      f_DIHPTPA  |
| 4      f_DVOYHRQ  |
+-------------------+

私がやろうとしていることを機能ツールに理解させるにはどうすればよいですか?

「カットオフ時間のデータフレームに行が重複しています。」cutoff_times df を調査しましたが、重複する行はありません。Person_id、時間、およびラベルはすべて、それぞれ複数回出現しますが、2 つの行が同じではありません。これらの重複は、エラーが参照している EntitySet の別の場所にある可能性がありますか?

4

1 に答える 1