いくつかの圧縮アルゴリズムをテストしたいのでinverted index
、上記のようないくつかの標準データセットが必要です。
これらのデータセットは無料でダウンロードできますか?
私の知る限り、これらのデータセットはグラスゴー大学によって配布されており、他のほとんどのTREC
テストデータセットと同様に無料ではありません。
いくつかの圧縮アルゴリズムをテストしたいのでinverted index
、上記のようないくつかの標準データセットが必要です。
これらのデータセットは無料でダウンロードできますか?
私の知る限り、これらのデータセットはグラスゴー大学によって配布されており、他のほとんどのTREC
テストデータセットと同様に無料ではありません。
これを見てください。
下にスクロールしてPeer-to-Peer Testbed Definitions
。確信はないけど!
注意:Majidさんの回答に対するコメントです。非常に長くなったので、私は答えとしてそれを置きました。
これらのデータセットの名前から明らかなように、 のサイズWT2g
は 2 ギガバイト、 のサイズWT10g
は 10 ギガバイトです。しかし、あなた[Majid]が私に紹介したデータセットは非常に小さかった. 最初は、このデータセットはメイン データセットのサブセットだと思っていました。WT10g
しかし、ダウンロードして内容を確認したところ、クロールされたサイトの URL のみが含まれていることがわかりました。さらに、各 URL には、クロール元のページ数が含まれています。(ページ自体ではなく、各 URL からクロールされたページの数を意味します)
完全に無料でこのデータセットを見つけることはできないようですが、単純なクローラーを作成して、[Majid] さんが紹介したデータセットに存在する URL をクロール シードとして使用することは可能だと思います。この方法で作成されるコレクションは、最初のコレクションに似ていると思います。