大量の単語リストがあるとします。例:
>>> with open('/usr/share/dict/words') as f:
... words=[word for word in f.read().split('\n') if word]
この単語リストの最初の文字でインデックスを作成したい場合、これは簡単です。
d={}
for word in words:
if word[0].lower() in 'aeiou':
d.setdefault(word[0].lower(),[]).append(word)
# You could use defaultdict here too...
結果は次のようになります。
{'a':[list of 'a' words], 'e':[list of 'e' words], 'i': etc...}
Python 2.7、3+の辞書理解でこれを行う方法はありますか? 言い換えれば、辞書が構築されているときにキーによって表されるリストを追加する辞書内包構文を使用することは可能ですか?
すなわち:
index={k[0].lower():XXX for k in words if k[0].lower() in 'aeiou'}
XXX は、作成中のキーに対して追加操作またはリスト作成を実行しますindex
。
編集
提案とベンチマークを取る:
def f1():
d={}
for word in words:
c=word[0].lower()
if c in 'aeiou':
d.setdefault(c,[]).append(word)
def f2():
d={}
{d.setdefault(word[0].lower(),[]).append(word) for word in words
if word[0].lower() in 'aeiou'}
def f3():
d=defaultdict(list)
{d[word[0].lower()].append(word) for word in words
if word[0].lower() in 'aeiou'}
def f4():
d=functools.reduce(lambda d, w: d.setdefault(w[0], []).append(w[1]) or d,
((w[0].lower(), w) for w in words
if w[0].lower() in 'aeiou'), {})
def f5():
d=defaultdict(list)
for word in words:
c=word[0].lower()
if c in 'aeiou':
d[c].append(word)
このベンチマークを生成します。
rate/sec f4 f2 f1 f3 f5
f4 11 -- -21.8% -31.1% -31.2% -41.2%
f2 14 27.8% -- -11.9% -12.1% -24.8%
f1 16 45.1% 13.5% -- -0.2% -14.7%
f3 16 45.4% 13.8% 0.2% -- -14.5%
f5 18 70.0% 33.0% 17.2% 16.9% --
デフォルトの dict を使用したストレート ループが最速であり、その後に set Comprehension と loop with が続きますsetdefault
。
アイデアをありがとう!