重複を含む可能性のあるデータセットがあります。データセット内の重複を見つけるために、インデックスをnumpy構造化配列に入れ、配列を並べ替え、一意の値から別の配列を作成してから、2つの配列の長さを比較します。
data = np.zeros(t_len, dtype={'names':['date', 'symbol'], 'formats':['i8', 'S16']})
data[:] = [(x['date'], x['symbol']) for x in tbl.iterrows()]
data.sort(order=['date', 'symbol'])
data2 = np.unique(data)
duplicates = False
if len(data) != len(data2):
duplicates = True
print "There are duplicates"
if not duplicates:
print "No duplicates found"
さて、私が本当にやりたいのは、重複を含むインデックスを決定することです。たとえば、次のようなデータセットがある場合:
array([12322323,'IBM'], [12322323,'IBM'], [12322323,'MSFT'], [12322323,'IBM'])
array([12322323、'IBM'])の配列を見たいのですが
独自の関数と差分関数の使用を検討しましたが、それらは機能していないようです。