1

2 つの文字列が設定された距離内 (互いに 10 語以内) にあるドキュメントをカウントしたいと考えています。「ドイツ*」と「戦争」としましょう。それらが合計で表示される回数を数えたくはありませんが、セットが表示されるドキュメントの数のみをカウントします (1 回表示される場合は 1 つとしてカウントします)。

単語を含む文書を数える方法を知っています。しかし、10 グラムを抽出して 2 つの単語が表示されるかどうかを確認し、ドキュメントごとにこれをカウントする必要があるかどうか、またはより効率的な方法があるかどうかはわかりません。

4

1 に答える 1