私は Python 3.6、Pymongo 3.3.0、および MongoDB バージョン 2.6.12 を使用しています。私は Python と MongoDB の両方の初心者です。答えが明らかな場合は申し訳ありません。
MongoDB コレクションを pymongo で変換するためのある種のデータ処理パイプラインを構築するという一般的な概念が欠けています。次のような約 800000 のドキュメントを含むコレクションがあります。
{'_id': ObjectId('some_id'),
'accession': 'an_integer',
'cik': 'another_integer',
'filing_date': datetime.datetime(some_date),
'item': 'some_string'}
今、nltkモジュールのいくつかのツール(ストップワードの削除、ステミングなど)を使用して、すべてのドキュメントのフィールド「項目」の文字列のみを処理し、これらの処理されたドキュメントを新しいコレクションに書き込むパイプラインを構築したいと考えています。私が間違っていなければ、MongoDB 内の集約フレームワークは事前定義されたコマンドの使用しかサポートしていないので、それを使用することはできませんか?
実際にどこから始めればいいのかわからないので、助けていただければ幸いです。(Python 内で変数として格納された単一の文字列に nltk メソッドを適用する方法は知っていますが、これをコレクション全体に適用する方法はわかりません。) よろしくお願いします。