“pymongo”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

657 参照

python - pythonとmongoDBを使用した2,000万件のレコードのインデックス作成

私の小さなプロジェクトについて、そして私が順調に進んでいるかどうかについて言及したいと思います。Medline（http://www.nlm.nih.gov/bsd/licensee/2011_stats/baseline_doc.html）のすべての記事を処理する必要があります。Medlineデータベースに精通していない人のために、私は少し情報を追加します：

約あります。20.000.000のレコード（83.4 GBのディスク容量）。それぞれに多くのフィールドとサブフィールドがあります。
このDB（ライセンス付き）をXML形式でダウンロードできます。
これらの20Mのレコードは、653個のファイルで配布されます。
すべてのファイルには1つのMedlineCitationSetがあり、これは一連のレコード（MedlineCitation）です。

これらのレコードを処理して、タイトル、要約などの情報を取得したいと思います。次に、これらのファイル（またはレコード）にpythonとmongodbでインデックスを付けることを考えました。そして私には1つの選択肢があります：

medlineパーサーを作成し、レコードごとにmongoDBのJSONエントリを作成し、pubmedIDでインデックスを作成しました。次に、get_abstract（'pubmedID'）：stringのような関数を作成できます。

私の質問は次のとおりです。

それは良い考えですか？（XML解析-> JSON->挿入とインデックス作成！）
GridFSを使用して、各ファイルのレコードに相当するチャンクを取得できますか？どのように？
他の方法を知っていますか？

2011-05-03T12:01:33.570

0 投票する

2 に答える

2687 参照

mongodb - mongodb mapreduce の where 条件

mongos group 関数で行うように、mongos mapreduce で条件を指定するにはどうすればよいですか。

私のデータは

値が 1000 のふたのみを放出したいemit(this.lid, this.age). . しかし、これはすべての値を発行します。ここで条件をつけたい。map reduce に何か手段はありますか? reduce 関数で if 条件を使用してフィルタリングしようとしましたが、機能しません

mongodb pymongo

2011-05-05T00:02:59.387

0 投票する

1 に答える

2753 参照

insert - ループ内にpymongo挿入

ループ内の pymongo の挿入に関するトリッキーな問題があります。insert() を使用すると結果が最初のレコードのみになり、save() を使用すると最後のレコードになるのはなぜですか。

Mongo に 10000 エントリを挿入しただけですが、1 つのエントリしか見つかりません。なんで？

insert pymongo

2011-05-06T03:33:48.063

0 投票する

6 に答える

36732 参照

python - Pymongo / MongoDB:インデックスを作成するか、インデックスを確保しますか?

ピモンゴのcreate_indexとの違いがわかりません。MongoDBensure_indexのインデックスページには、次のように書かれています。

を呼び出してインデックスを作成できます。 ensureIndex()

ただし、pymongo には 2 つの異なるコマンドcreate_indexとensure_indexがあり、create index のドキュメントには次のように記載されています。

無条件にインデックスを作成しようとする create_index() とは異なり、ensure_index() はドライバー内のキャッシュを利用して、まだ存在しない可能性のあるインデックスのみを作成しようとします。インデックスが PyMongo によって作成 (または保証) されると、ttl 秒間「記憶」されます。その制限時間内に ensure_index() を繰り返し呼び出すと軽量になります。実際にインデックスを作成しようとはしません。

ensure_index永続的なインデックスを作成することを理解していますか、それともcreate_indexこれを使用する必要がありますか?

python mongodb pymongo

2011-05-06T14:12:48.320

0 投票する

2 に答える

208 参照