map - 多数のドキュメントに一意の ID を割り当てる

Question

基本的に、大量のドキュメントセットに含まれるすべての N グラムに一意に ID を割り当てられるようにしたいと考えています。したがって、処理するドキュメントが 1,000 万個ある場合、ドキュメントのそれぞれからテキストを読み取り、N グラム (ほとんどはトライグラム) を取得し、これらの N グラムに一意の ID を割り当てることができるはずです。どういうわけか、これらの一意の ID を保存して、すばやく取得できるようにする必要があります。

score 1 · Accepted Answer

上記のコメントに基づいて、N-gramをそれ自体の識別子として使用することをお勧めします。そうすれば、IDからN-gramへの個別のマッピングを維持する必要はありません。

たとえば、トリグラム「hel」、「ell」、および「llo」を含むテキスト「hello」を含むドキュメントがあるとします（単語の境界を含まないと仮定します）。最初に1="hel"、2 = "ell"、3 = "llo"のようなIDマッピングを設定し、ドキュメントの署名を{1、2、3}に設定する代わりに、Nグラムを直接使用できます。ドキュメントの署名として{"hel"、 "ell"、"llo"}。このようにして、スキャンフェーズと処理フェーズを組み合わせて、ドキュメントを1回パスすることもできます。

map - 多数のドキュメントに一意の ID を割り当てる

1 に答える 1

Related

Reference