問題タブ [pymongo]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - pythonとmongoDBを使用した2,000万件のレコードのインデックス作成
私の小さなプロジェクトについて、そして私が順調に進んでいるかどうかについて言及したいと思います。Medline(http://www.nlm.nih.gov/bsd/licensee/2011_stats/baseline_doc.html)のすべての記事を処理する必要があります。Medlineデータベースに精通していない人のために、私は少し情報を追加します:
- 約あります。20.000.000のレコード(83.4 GBのディスク容量)。それぞれに多くのフィールドとサブフィールドがあります。
- このDB(ライセンス付き)をXML形式でダウンロードできます。
- これらの20Mのレコードは、653個のファイルで配布されます。
- すべてのファイルには1つのMedlineCitationSetがあり、これは一連のレコード(MedlineCitation)です。
これらのレコードを処理して、タイトル、要約などの情報を取得したいと思います。次に、これらのファイル(またはレコード)にpythonとmongodbでインデックスを付けることを考えました。そして私には1つの選択肢があります:
medlineパーサーを作成し、レコードごとにmongoDBのJSONエントリを作成し、pubmedIDでインデックスを作成しました。次に、get_abstract('pubmedID'):stringのような関数を作成できます。
私の質問は次のとおりです。
- それは良い考えですか?(XML解析-> JSON->挿入とインデックス作成!)
- GridFSを使用して、各ファイルのレコードに相当するチャンクを取得できますか?どのように?
- 他の方法を知っていますか?
mongodb - mongodb mapreduce の where 条件
mongos group 関数で行うように、mongos mapreduce で条件を指定するにはどうすればよいですか。
私のデータは
値が 1000 のふたのみを放出したいemit(this.lid, this.age)
. . しかし、これはすべての値を発行します。ここで条件をつけたい。map reduce に何か手段はありますか? reduce 関数で if 条件を使用してフィルタリングしようとしましたが、機能しません
insert - ループ内にpymongo挿入
ループ内の pymongo の挿入に関するトリッキーな問題があります。insert() を使用すると結果が最初のレコードのみになり、save() を使用すると最後のレコードになるのはなぜですか。
Mongo に 10000 エントリを挿入しただけですが、1 つのエントリしか見つかりません。なんで?
python - Pymongo / MongoDB:インデックスを作成するか、インデックスを確保しますか?
ピモンゴのcreate_index
との違いがわかりません。MongoDBensure_index
のインデックス ページには、次のように書かれています。
を呼び出してインデックスを作成できます。
ensureIndex()
ただし、pymongo には 2 つの異なるコマンドcreate_index
とensure_index
があり、create index のドキュメントには次のように記載されています。
無条件にインデックスを作成しようとする create_index() とは異なり、ensure_index() はドライバー内のキャッシュを利用して、まだ存在しない可能性のあるインデックスのみを作成しようとします。インデックスが PyMongo によって作成 (または保証) されると、ttl 秒間「記憶」されます。その制限時間内に ensure_index() を繰り返し呼び出すと軽量になります。実際にインデックスを作成しようとはしません。
ensure_index
永続的なインデックスを作成することを理解していますか、それともcreate_index
これを使用する必要がありますか?
python - couchdb-python を使用して CouchDB に対するアドホック クエリの時間をミリ秒単位で取得する方法はありますか?
query() 関数を使用して、couchdb-python でアドホック JavaScript マップ関数を使用しています。クエリの処理にかかる時間を取得する方法はありますか?
スクリプトのタイミングを計ってみましたが、得られた時間が正しくないことは明らかです。query() 関数が返す ViewResult を反復処理してすべての結果を出力すると、真実に近い答えが得られると思いますが、タイミングに出力を含めたくありません..
誰でもアイデアはありますか?
本当にありがとう!
django - DjangoでMongoEngine Pymongoを使用してJSONオブジェクトを返すことはできませんか?
そのため、プロジェクトの JSON オブジェクトを返そうとしています。Django が JSON を返すようにするには、数時間かかりました。
これまで取り組んできたビューは次のとおりです。
これが私のモデルです:
これはそれが返すものです:
JSONを返す方法について何か考えはありますか?
mongodb - MongoDB タイムスタンプのバッチ更新
私のコレクションにはいくつかのレコードがあります。キーの 1 つは、datetime/timestamp 値である「available_on」です。これらすべてのフィールドをバッチ更新して間隔を追加したいと考えています。
望ましい使用法は次のようなものです。
私は pymongo 1.10 を使用していますが、私が理解していることから、 JavaScript コードをupdate
orに提供する方法はありませんfind_and_modify
。そして、更新修飾子しか使用できません。
python - MongoDBのすべてのフィールドの先頭にある「u」は何ですか?
質問はタイトルフィールドに収まるため、ここには何もありません。
python - PyMongo ドライバーはデータを集計しますか?
...MongoDB からすべてを取得し、ネットワーク経由で転送した後ですか?
私が尋ねようとしているのは、従来の DB シナリオでは、COUNT、SUM などは DB 側で実行されるということです。PyMongo はすべてのレコードをネットワーク経由で転送してから集計を行いますか?
たとえば、PyMongo のチュートリアルのクエリを見ています。posts.find({"author": "Mike"}).count()