共起行列を作成するための高速で効率的な方法を探しています(つまり)。これが私が扱っているデータのサンプルです:
col1 col2
a e
a f
a e
b f
c g
a e
d f
a e
a g
b e
c e
そして、次の形式の行列が必要です。
... e... f... g
a
b
c
d
頻度に関連する対応するエントリを使用します。
たとえば、行列の要素 (3,1) は (c,e) の共起の頻度に対応し、値 1 を持ち、(1,1) の要素は 3 に対応する値 3 を持つ必要があります。データセット内の (a,e) のエントリ。
現在、2 つの for ループを使用して項目を個別に計算していますが、行列の計算に非常に長い時間がかかります (実際のデータには約 100 万行あります)。