0

いくつかの圧縮アルゴリズムをテストしたいのでinverted index、上記のようないくつかの標準データセットが必要です。

これらのデータセットは無料でダウンロードできますか?

私の知る限り、これらのデータセットはグラスゴー大学によって配布されており、他のほとんどのTRECテストデータセットと同様に無料ではありません。

4

2 に答える 2

1

これを見てください。

下にスクロールしてPeer-to-Peer Testbed Definitions。確信はないけど!

于 2012-08-28T19:28:58.807 に答える
0

注意:Majidさんの回答に対するコメントです。非常に長くなったので、私は答えとしてそれを置きました。

これらのデータセットの名前から明らかなように、 のサイズWT2gは 2 ギガバイト、 のサイズWT10gは 10 ギガバイトです。しかし、あなた[Majid]が私に紹介したデータセットは非常に小さかった. 最初は、このデータセットはメイン データセットのサブセットだと思っていました。WT10gしかし、ダウンロードして内容を確認したところ、クロールされたサイトの URL のみが含まれていることがわかりました。さらに、各 URL には、クロール元のページ数が含まれています。(ページ自体ではなく、各 URL からクロールされたページの数を意味します)
完全に無料でこのデータセットを見つけることはできないようですが、単純なクローラーを作成して、[Majid] さんが紹介したデータセットに存在する URL をクロール シードとして使用することは可能だと思います。この方法で作成されるコレクションは、最初のコレクションに似ていると思います。

于 2012-08-31T17:45:34.750 に答える