34

L と M の 2 つのリストがあるとします。これらが要素を共有しているかどうかを知りたいとします。要素を共有しているかどうかを (Python で) 尋ねる最も速い方法はどれですか? 彼らがどの要素を共有しているか、どれだけ共有しているかは気にしません。

たとえば、この場合

L = [1,2,3,4,5,6]
M = [8,9,10]

私は False を取得する必要があります。ここでは:

L = [1,2,3,4,5,6]
M = [5,6,7]

True を取得する必要があります。

質問が明確であることを願っています。ありがとう!

マヌエル

4

4 に答える 4

51

またはもっと簡潔に

if set(L) & set(M):
    # there is an intersection
else:
    # no intersection

本当に必要な場合TrueFalse

bool(set(L) & set(M))

いくつかのタイミングを実行した後、これも試してみるのに良いオプションのようです

m_set=set(M)
any(x in m_set  for x in L)

M または L のアイテムがハッシュ可能でない場合は、このような効率の悪いアプローチを使用する必要があります

any(x in M for x in L)

100 項目リストのタイミングを次に示します。セットを使用すると、交点がない場合はかなり速くなり、かなりの交点がある場合は少し遅くなります。

M=range(100)
L=range(100,200)

timeit set(L) & set(M)
10000 loops, best of 3: 32.3 µs per loop

timeit any(x in M for x in L)
1000 loops, best of 3: 374 µs per loop

timeit m_set=frozenset(M);any(x in m_set  for x in L)
10000 loops, best of 3: 31 µs per loop

L=range(50,150)

timeit set(L) & set(M)
10000 loops, best of 3: 18 µs per loop

timeit any(x in M for x in L)
100000 loops, best of 3: 4.88 µs per loop

timeit m_set=frozenset(M);any(x in m_set  for x in L)
100000 loops, best of 3: 9.39 µs per loop


# Now for some random lists
import random
L=[random.randrange(200000) for x in xrange(1000)]
M=[random.randrange(200000) for x in xrange(1000)]

timeit set(L) & set(M)
1000 loops, best of 3: 420 µs per loop

timeit any(x in M for x in L)
10 loops, best of 3: 21.2 ms per loop

timeit m_set=set(M);any(x in m_set  for x in L)
1000 loops, best of 3: 168 µs per loop

timeit m_set=frozenset(M);any(x in m_set  for x in L)
1000 loops, best of 3: 371 µs per loop
于 2010-02-04T05:28:32.270 に答える
5

交差を構築する作業を回避し、交差することがわかったらすぐに答えを出すには:

m_set = frozenset(M)
return any(x in m_set for x in L)

更新: gnibbler がこれを試したところ、frozenset() の代わりに set() を使用すると、より高速に実行されることがわかりました。なんてこった。

于 2010-02-04T05:37:09.657 に答える
3

まず、注文する必要がない場合は、setタイプに切り替えます。

それでもリスト型が必要な場合は、次のようにします: 0 == False

len(set.intersection(set(L), set(M)))
于 2010-02-04T05:26:56.720 に答える
-1

これは、私が思いつくことができるバランスの取れた方法で最も一般的で効率的です(コメントはコードを理解しやすくする必要があります):

import itertools, operator

def _compare_product(list1, list2):
    "Return if any item in list1 equals any item in list2 exhaustively"
    return any(
        itertools.starmap(
            operator.eq,
            itertools.product(list1, list2)))

def do_they_intersect(list1, list2):
    "Return if any item is common between list1 and list2"

    # do not try to optimize for small list sizes
    if len(list1) * len(list2) <= 100: # pick a small number
        return _compare_product(list1, list2)

    # first try to make a set from one of the lists
    try: a_set= set(list1)
    except TypeError:
        try: a_set= set(list2)
        except TypeError:
            a_set= None
        else:
            a_list= list1
    else:
        a_list= list2

    # here either a_set is None, or we have a_set and a_list

    if a_set:
        return any(itertools.imap(a_set.__contains__, a_list))

    # try to sort the lists
    try:
        a_list1= sorted(list1)
        a_list2= sorted(list2)
    except TypeError: # sorry, not sortable
        return _compare_product(list1, list2)

    # they could be sorted, so let's take the N+M road,
    # not the N*M

    iter1= iter(a_list1)
    iter2= iter(a_list2)
    try:
        item1= next(iter1)
        item2= next(iter2)
    except StopIteration: # one of the lists is empty
        return False # ie no common items

    while 1:
        if item1 == item2:
            return True
        while item1 < item2:
            try: item1= next(iter1)
            except StopIteration: return False
        while item2 < item1:
            try: item2= next(iter2)
            except StopIteration: return False

HTH。

于 2010-02-07T01:43:13.653 に答える