私は R を初めて使用します。私の問題は、R でそれを行う方法がわからないだけで、何をする必要があるかを知っていることです。Web サービスの負荷テストから非常に大きなデータ フレームがあり、最大 20M の観測があります。次の変数があります。
epochtime, uri, cache (hit or miss)
私はいろいろなことをする必要があると思っています。上位 50 個の異なる URI のデータ フレームをサブセット化し、各サブセットの各観測値について、その時点でのキャッシュ ヒット率を計算する必要があります。最終目標は、URI ごとの経時的なキャッシュ ヒット/ミス % のプロットです。
私はこのトピックに関するさまざまな投稿を読み、まだ読んでいますが、R はかなり新しく、締め切りがあります。私が得ることができる助けをいただければ幸いです
編集:
正確なデータを提供することはできませんが、Mongo データベースから取得した少なくとも 2,000 万件の観測結果は次のようになります。時間はエポックであり、毎秒数千を記録しているため、時間には多くの重複があります。50 を超える uri が存在する可能性があります。上位 50 のみを気にします。最終結果は、URI ごとの合計発生数に対する % TCP_HIT の経時的な折れ線グラフになります。それがより明確であることを願っています
time uri action
1355683900 /some/uri TCP_HIT
1355683900 /some/other/uri TCP_HIT
1355683905 /some/other/uri TCP_MISS
1355683906 /some/uri TCP_MISS