Beautiful Soup は十分に効率的ではないため、 pure を使用しようとしていますlxml
。ただし、 にlxml.html.fromstring
はバグがあります (しばらくすると突然 100% の RAM を消費しますfromstring
)。
API で他のモジュールを使用できますか? 私はそれを理解することができません.インターネット上には驚くほどゼロに近い例があります.
これは私が今やっていることですが、私が言ったように、次のものを置き換える必要がありますfromstring
:
mySearchTree = fromstring(data)
metas = {}
n = -1
for a in mySearchTree.cssselect('meta'):
n += 1
metas[n] = {}
for b in a.items():
metas[n][b[0]] = b[1]
y = 0
tag = []
for m in metas:
if 'property' in metas[m] and 'content' in metas[m]:
if 'og:' in metas[m]['property']:
y += 1
tag.append({metas[m]['property'] : metas[m]['content']})
for x in tag:
for y in x:
#print '%s ==> %s' % (y, x[y])
self.rj[y] = x[y]
どんなポインタでも大歓迎です!