0

基本的に、大量のドキュメント セットに含まれるすべての N グラムに一意に ID を割り当てられるようにしたいと考えています。したがって、処理するドキュメントが 1,000 万個ある場合、ドキュメントのそれぞれからテキストを読み取り、N グラム (ほとんどはトライグラム) を取得し、これらの N グラムに一意の ID を割り当てることができるはずです。どういうわけか、これらの一意の ID を保存して、すばやく取得できるようにする必要があります。

4

1 に答える 1

1

上記のコメントに基づいて、N-gramをそれ自体の識別子として使用することをお勧めします。そうすれば、IDからN-gramへの個別のマッピングを維持する必要はありません。

たとえば、トリグラム「hel」、「ell」、および「llo」を含むテキスト「hello」を含むドキュメントがあるとします(単語の境界を含まないと仮定します)。最初に1="hel"、2 = "ell"、3 = "llo"のようなIDマッピングを設定し、ドキュメントの署名を{1、2、3}に設定する代わりに、Nグラムを直接使用できます。ドキュメントの署名として{"hel"、 "ell"、"llo"}。このようにして、スキャンフェーズと処理フェーズを組み合わせて、ドキュメントを1回パスすることもできます。

于 2011-10-14T21:31:07.253 に答える