1

HEREを使用して得られた高速化に感銘を受けましたnumba

今日、私は自分のコードをスピードアップしようとしている人からの質問を SO で見つけました。では、 で何が達成できるか見てみましょうnumba

コードは次のとおりです。

from numba import autojit
from time import time

LIMIT = pow(10,6)

def primes(limit):
    # Keep only odd numbers in sieve, mapping from index to number is
    # num = 2 * idx + 3
    # The square of the number corresponding to idx then corresponds to:
    # idx2 = 2*idx*idx + 6*idx + 3
    sieve = [True] * (limit // 2)
    prime_numbers = set([2])
    for j in range(len(sieve)):
        if sieve[j]:
            new_prime = 2*j + 3
            prime_numbers.add(new_prime)
            for k in range((2*j+6)*j+3, len(sieve), new_prime):
                sieve[k] = False
    return list(prime_numbers)


numba_primes = autojit(primes)



start = time()
numba_primes(LIMIT)
end=time()
print("Numba: Time Taken : ",end-start)

start = time()
primes(LIMIT)
end=time()
print("Python: Time Taken : ",end-start)

結果:

('Numba: Time Taken : ', 0.68790602684021)
('Python: Time Taken : ', 0.12417221069335938)

なぜこうなった?このnumbaコードでは、これ以上速くなっていないようです!

4

1 に答える 1

2

これは、numpy 配列を使用して最適化されたコードの numba 化バージョン (Numba 0.13 を使用) です。

import numpy as np
import numba

# You could also just use @numba.jit or @numba.jit(nopython=True)
# here and get comparable timings.
@numba.jit('void(uint8[:])', nopython=True)
def primes_util(sieve):
    ssz = sieve.shape[0]
    for j in xrange(ssz):
        if sieve[j]:
            new_prime = 2*j + 3
            for k in xrange((2*j+6)*j+3, ssz, new_prime):
                sieve[k] = False

def primes_numba(limit):
    sieve = np.ones(limit // 2, dtype=np.uint8)
    primes_util(sieve)

    return [2] + (np.nonzero(sieve)[0]*2 + 3).tolist()

次に、タイミングとの比較:

In [112]: %timeit primes(LIMIT)
1 loops, best of 3: 221 ms per loop

In [113]: %timeit primes_numba(LIMIT)
100 loops, best of 3: 11 ms per loop

In [114]:

a = set(primes(LIMIT))
b = set(primes_numba(LIMIT))

a == b
Out[114]:

True

これは 20 倍のスピードアップですが、おそらくさらに最適化を行うことができます。jit デコレータを使用しない場合、numba バージョンは私のマシンで約 300 ミリ秒で実行されます。への実際の呼び出しprimes_utilは約 5 ミリ秒しかかからず、残りはへの呼び出しとnp.nonzeroリストへの変換です。

于 2014-03-31T18:30:19.457 に答える