1

インターネット経由で提供される JPEG ファイルの「ファイル サイズ」プロパティの分布を示すグラフへのリンクはありますか?

ロングテールとJPEGファイルの「平均」サイズがあるかどうかを知りたいです。

4

1 に答える 1

1

このようなデータの既存の例を見つけることについては他の人に任せますが、この分布を計算する方法を共有できます。

インターネット上の画像サイズの分布を直接知ることなく取得する 1 つの方法は、ランダムに値をサンプリングして結果を分析することです。これは統計や機械学習で一般的に行われており、1 つのアプローチとしてマルコフ連鎖モンテカルロがあります。これは、Google がページランク アルゴリズムを計算する方法に数学的に関連しています。

結果の精度に応じて、インターネット上でランダム ウォークを実行し、遭遇した画像ファイル サイズに関する統計を収集することが最善の方法です。驚くべきことに、各値を保存する必要はありません。そのような統計を保存する段階的な方法があるため、メモリに収まるよりもはるかに多くの値をサンプリングした後に分布を把握できます。たとえば、Commons Math の実装です。

ただし、そのような正確なランダム ウォークを実装するのは難しい場合があります。おそらくこれを近似する方法は、Google 画像検索にアクセスし、一般的な検索用語の分布に従ってランダムに検索用語を入力し、各結果の最初の数百の画像の画像サイズをサンプリングすることです。これは、スクレイピングが非常に簡単で (作業が大幅に減るため)、帯域幅効率が高くなります (Google が画像サイズを提供するため、画像をダウンロードして自分で確認する必要はありません)。画像サイズの分布を説明するのにかなり正確です。

最後に、これを実装するには、mechanize などを使用してプロセスを大幅に自動化することをお勧めします

于 2013-01-30T01:02:03.687 に答える