11

numpy / scipyを使用して、ネストされたリストをさまざまなサイズのサブリストでフラット化するにはどうすればよいですか?速度は非常に重要であり、リストは大きいです。

 lst = [[1, 2, 3, 4],[2, 3],[1, 2, 3, 4, 5],[4, 1, 2]]

これより速いものはありますか?

 vec = sp.array(list(*chain(lst)))
4

6 に答える 6

13

np.fromiterはどうですか:

In [49]: %timeit np.hstack(lst*1000)
10 loops, best of 3: 25.2 ms per loop

In [50]: %timeit np.array(list(chain.from_iterable(lst*1000)))
1000 loops, best of 3: 1.81 ms per loop

In [52]: %timeit np.fromiter(chain.from_iterable(lst*1000), dtype='int')
1000 loops, best of 3: 1 ms per loop
于 2013-03-12T16:11:28.583 に答える
8

numpy.hstackを試すことができます

>>> lst = [[1, 2, 3, 4],[2, 3],[1, 2, 3, 4, 5],[4, 1, 2]]
>>> np.hstack(lst)
array([1, 2, 3, 4, 2, 3, 1, 2, 3, 4, 5, 4, 1, 2])
于 2013-03-12T16:07:59.080 に答える
6

イテレータから numpy 配列を作成する最速の方法は、次を使用することnumpy.fromiterです。

>>> %timeit numpy.fromiter(itertools.chain.from_iterable(lst), numpy.int64)
100000 loops, best of 3: 3.76 us per loop
>>> %timeit numpy.array(list(itertools.chain.from_iterable(lst)))
100000 loops, best of 3: 14.5 us per loop
>>> %timeit numpy.hstack(lst)
10000 loops, best of 3: 57.7 us per loop

ご覧のとおり、これはリストに変換するよりも高速で、 よりもはるかに高速ですhstack

于 2013-03-12T16:11:37.197 に答える
3

試してみてはどうですか:

np.hstack(lst)
于 2013-03-12T16:08:22.853 に答える
1

使用chain.from_iterable:

vec = sp.array(list(chain.from_iterable(lst)))

*これにより、 iterable に多くのサブリストがある場合に処理にかなりのコストがかかる which の使用が回避されます。

他のオプションはリストにあるかもしれません:sum

vec = sp.array(sum(lst, []))

ただし、これにより二次再配分が発生することに注意してください。このようなものは、はるかに優れたパフォーマンスを発揮します:

def sum_lists(lst):
    if len(lst) < 2:
        return sum(lst, [])
    else:
        half_length = len(lst) // 2
        return sum_lists(lst[:half_length]) + sum_lists(lst[half_length:])

私のマシンでは、次のようになります。

>>> L = [[random.randint(0, 500) for _ in range(x)] for x in range(10, 510)]
>>> timeit.timeit('sum(L, [])', 'from __main__ import L', number=1000)
168.3029818534851
>>> timeit.timeit('sum_lists(L)', 'from __main__ import L,sum_lists', number=1000)
10.248489141464233
>>> 168.3029818534851 / 10.248489141464233
16.422223757114615

ご覧のとおり、16 倍のスピードアップです。はchain.from_iterableさらに高速です。

>>> timeit.timeit('list(itertools.chain.from_iterable(L))', 'import itertools; from __main__ import L', number=1000)
1.905594825744629
>>> 10.248489141464233 / 1.905594825744629
5.378105042586658

さらに 6 倍のスピードアップ。


numpyを知らずに、「純粋なpython」ソリューションを探しました。Abhijit unutbu /senderle の解決策があなたの場合に進むべき道だと思います。

于 2013-03-12T16:07:08.390 に答える