上記の説明を読んだ後、私は次のようなセットベースのバージョンのパフォーマンスに興味がありました。
def contains_digit(s, digits=set('0123456789')):
return bool(digits.intersection(s))
re
私のテストでは、これはあるコンピューターのバージョンよりも平均してわずかに速く、別のコンピューターではわずかに遅い(?)。楽しみのために、他のバージョンも比較しました。
import math
import re
import timeit
def contains_digit_set_intersection(s, digits=set('0123456789')):
return bool(digits.intersection(s))
def contains_digit_iter_set(s, digits=set('0123456789')):
for c in s:
if c in digits:
return True
return False
def contains_digit_iter_str(s, digits='0123456789'):
for c in s:
if c in digits:
return True
return False
def contains_digit_re(s, digits=re.compile(r'\d')):
return bool(digits.search(s))
def print_times(func, times):
name = func.__name__
average = sum(times) / len(times)
formatted_times = ' '.join('{:.3f}'.format(t) for t in times)
message = '{name:<31} {times} ~{average:.3f}'
print(message.format(name=name, times=formatted_times, average=average))
funcs = [
contains_digit_set_intersection,
contains_digit_iter_set,
contains_digit_iter_str,
contains_digit_re,
]
cases = [
'1bcdefg7',
'abcdefg7',
'abcdefgh',
'0798237 sh 523-123-asdjlh',
'asdjlhtaheoahueoaea 11 thou',
]
for func in funcs:
times = []
for case in cases:
func_case = '{func.__name__}("{case}")'.format(func=func, case=case)
time = timeit.timeit(func_case, globals={func.__name__: func})
times.append(time)
print_times(func, times)
2台のコンピューターのサンプル実行(各ケースの時間と〜平均):
contains_digit_set_intersection 0.744 0.731 0.724 1.227 1.113 ~0.908
contains_digit_iter_set 0.264 0.541 0.566 0.260 1.068 ~0.540
contains_digit_iter_str 0.272 0.649 0.632 0.274 1.211 ~0.607
contains_digit_re 0.748 0.854 0.679 0.744 1.006 ~0.806
contains_digit_set_intersection 0.860 0.870 0.855 1.456 1.357 ~1.080
contains_digit_iter_set 0.285 0.613 0.617 0.307 1.163 ~0.597
contains_digit_iter_str 0.295 0.748 0.799 0.288 1.595 ~0.745
contains_digit_re 1.157 1.236 0.927 1.086 1.450 ~1.171