ドキュメントのセットがあり、それぞれに機能のセットがあります。機能Aが与えられた場合、同じドキュメントに機能Bが含まれる確率を知る必要があります。
確率行列stを作成することを考えました。M(i、j)=機能Aが存在する場合、ドキュメントに機能Bが含まれる確率。
ただし、追加の要件があります。機能Aがドキュメント内にある場合、同じドキュメント内にある確率>Pを持つすべての機能は何ですか。
つまり、私が考えることができるのは、確率行列のスパース行列だけです。計算された後、すべての列で実行される各特徴について、Pで並べ替え、リンクリストのどこかに保持します。(これで、機能ごとに、対応する機能のリストが表示されます。
この空間計算量は非常に大きく(最悪の場合:N ^ 2、Nは大きい!)、各検索の時間計算量はO(N)です。
より良いアイデアはありますか?