Mongo から CSV ファイルにデータをインポートしています。インポートは、各 JSON ドキュメントの「タイムスタンプ」と「テキスト」で構成されます。
ドキュメント:
{
name: ...,
size: ...,
timestamp: ISODate("2013-01-09T21:04:12Z"),
data: { text:..., place:...},
other: ...
}
コード:
with open(output, 'w') as fp:
for r in db.hello.find(fields=['text', 'timestamp']):
print >>fp, '"%s","%s"' % (r['text'], r['timestamp'].strftime('%H:%M:%S'))
重複を削除したいと思います (一部の Mongo ドキュメントには同じテキストがあります)。最初のインスタンス (時間に関して) はそのままにしておきたいです。インポート時にこれらの重複を削除することはできますか?
ご協力いただきありがとうございます!