1

pymongo を使用して、mongoDB 用の単純なインデクサー スクリプトを作成することができました。しかし、インデックス作成、ドキュメントの追加、およびクエリが、サーバー上の 96 GB の RAM を占有する理由がわかりません。

クエリが最適化されていないためですか? 代わりにクエリを最適化するにはどうすればよいですか database.find_one({"eng":src})

インデクサー スクリプトを最適化するには、他にどのような方法がありますか?

したがって、私の入力は次のとおりです(実際のデータ入力には、さまざまな長さの文の200万行以上があります):

#srcfile

You will be aware from the press and television that there have been a number of bomb explosions and killings in Sri Lanka.
One of the people assassinated very recently in Sri Lanka was Mr Kumar Ponnambalam, who had visited the European Parliament just a few months ago.
Would it be appropriate for you, Madam President, to write a letter to the Sri Lankan President expressing Parliament's regret at his and the other violent deaths in Sri Lanka and urging her to do everything she possibly can to seek a peaceful reconciliation to a very difficult situation?
Yes, Mr Evans, I feel an initiative of the type you have just suggested would be entirely appropriate.
If the House agrees, I shall do as Mr Evans has suggested.

#trgfile

Wie Sie sicher aus der Presse und dem Fernsehen wissen, gab es in Sri Lanka mehrere Bombenexplosionen mit zahlreichen Toten.
Zu den Attentatsopfern, die es in jüngster Zeit in Sri Lanka zu beklagen gab, zählt auch Herr Kumar Ponnambalam, der dem Europäischen Parlament erst vor wenigen Monaten einen Besuch abgestattet hatte.
Wäre es angemessen, wenn Sie, Frau Präsidentin, der Präsidentin von Sri Lanka in einem Schreiben das Bedauern des Parlaments zum gewaltsamen Tod von Herrn Ponnambalam und anderen Bürgern von Sri Lanka übermitteln und sie auffordern würden, alles in ihrem Kräften stehende zu tun, um nach einer friedlichen Lösung dieser sehr schwierigen Situation zu suchen?
Ja, Herr Evans, ich denke, daß eine derartige Initiative durchaus angebracht ist.
Wenn das Haus damit einverstanden ist, werde ich dem Vorschlag von Herrn Evans folgen.

ドキュメントの例は次のようになります

{ 
    "_id" : ObjectId("50f5fe8916174763f6217994"), 
    "deu" : "Wie Sie sicher aus der Presse und dem Fernsehen wissen, gab es in Sri 
             Lanka mehrere Bombenexplosionen mit zahlreichen Toten.\n", 
    "uid" : 13, 
    "eng" : "You will be aware from the press and television that there have been a 
             number of bomb explosions and killings in Sri Lanka." 
}

私のコード:

# -*- coding: utf8 -*-
import codecs, glob, os
from pymongo import MongoClient
from itertools import izip
from bson.code import Code

import sys
reload(sys)
sys.setdefaultencoding("utf-8")

# Gets first instance of matching key given a value and a dictionary.    
def getKey(dic, value):
  return [k for k,v in dic.items() if v == value]

def langiso (lang, isochar=3):
  languages = {"en":"eng",
               "da":"dan","de":"deu",
               "es":"spa",
               "fi":"fin","fr":"fre",
               "it":"ita",
               "nl":"nld",
               "zh":"mcn"}
  if len(lang) == 2 or isochar==3:
    return languages[lang]
  if len(lang) == 3 or isochar==2:
    return getKey(lang)

def txtPairs (bitextDir):
  txtpairs = {}
  for infile in glob.glob(os.path.join(bitextDir, '*')):
    #print infile
    k = infile[-8:-3]; lang = infile[-2:]
    try:
      txtpairs[k] = (txtpairs[k],infile) if lang == "en" else (infile,txtpairs[k]) 
    except:
      txtpairs[k] = infile
  for i in txtpairs:
    if len(txtpairs[i]) != 2:
      del txtpairs[i]
  return txtpairs

def indexEuroparl(sfile, tfile, database):   
  trglang = langiso(tfile[-2:]) #; srclang = langiso(sfile[-2:]) 

  maxdoc = database.find().sort("uid",-1).limit(1)
  uid = 1 if maxdoc.count() == 0 else maxdoc[0]

  counter = 0
  for src, trg in izip(codecs.open(sfile,"r","utf8"), \
                       codecs.open(tfile,"r","utf8")):
    quid = database.find_one({"eng":src})
    # If sentence already exist in db
    if quid != None:
      if database.find({trglang: {"$exists": True}}):
        print "Sentence uniqID",quid["uid"],"already exist."
        continue
      else:
        print "Reindexing uniqID",quid["uid"],"..."
        database.update({"uid":quid["uid"]}, {"$push":{trglang:trg}})
    else:
      print "Indexing uniqID",uid,"..."
      doc = {"uid":uid,"eng":src,trglang:trg}
      database.insert(doc)
      uid+=1
    if counter == 1000:
      for i in database.find():
        print i
      counter = 0
    counter+=1

connection = MongoClient()
db = connection["europarl"]
v7 = db["v7"]

srcfile = "eng-deu.en"; trgfile = "eng-deu.de"
indexEuroparl(srcfile,trgfile,v7)

# After indexing the english-german pair, i'll perform the same indexing on other language pairs
srcfile = "eng-spa.en"; trgfile = "eng-spa.es"
indexEuroparl(srcfile,trgfile,v7)
4

1 に答える 1

0

コードのプロファイリングを数回行った後、RAM がリークしている場所を見つけました。

まず、フィールドを頻繁にクエリする場合は、次のよう"eng"にしてそのフィールドのインデックスを作成する必要があります。

v7.ensure_index([("eng",1),("unique",True)])

これにより、索引付けされていないフィールド全体のシリアル検索にかかる時間が解決され"eng"ます。

次に、RAM の出血の問題は、このコストのかかる関数呼び出しによるものです。

doc = {"uid":uid,"eng":src,trglang:trg}
if counter == 1000:
  for i in database.find():
    print i
  counter = 0
counter+=1

MongoDb が行うことは、@Sammaye気づいたように結果を RAM に格納することです。また、database.find() を呼び出すたびに、コレクションに追加した一連のドキュメント全体が RAM に保持されます。それが私が96GBのRAMを使い果たす方法です。上記のスニペットを次のように変更する必要があります。

doc = {"uid":uid,"eng":src,trglang:trg}
if counter == 1000:
  print doc
counter+=1

database.find() を削除し、"eng"フィールドのインデックスを作成することで、最大 25 GB しか使用せず、1 時間以内に 200 万文のインデックスを完了しました。

于 2013-01-18T11:42:44.737 に答える