HDFStore にインデックス付きの frame_table として格納されている user_ids を持つデータ フレームがあります。また、この HDF ファイルには、ユーザーが実行したアクションを含む別のテーブルがあります。1% のユーザーが行ったすべてのアクションを取得したいと考えています。手順は次のとおりです。
#Get 1% of the user IDs
df_id = store.select('df_user_id', columns = ['id'])
1pct_users = rnd.sample(df_id.id.unique(), 0.01*len(df_id.id.unique()))
df_id = df_id[df_id.id.isin(1pct_users)]
ここで、戻って、df_user_id として同じインデックスが付けられた frame_tables から、これらのユーザーが実行したアクションを説明するすべての追加情報を取得したいと考えています。この例とこの質問に従って、私は次のことを行いました:
1pct_actions = store.select('df_actions', where = pd.Term('index', 1pct_users.index))
これは単に空のデータ フレームを提供します。実際、前の pandas docリンクの例をコピーして貼り付けると、空のデータ フレームも取得されます。Term
最近のパンダで何か変わった?私はパンダ0.12を使用しています。
私は特定の解決策に縛られていません。df_id テーブル (高速) のルックアップから hdfstore インデックスを取得し、それらのインデックスを他のフレーム テーブルから直接取得できる限り。