大学のプロジェクト用にウィキペディアの全文をダウンロードしたいと考えています。これをダウンロードするには、独自のスパイダーを作成する必要がありますか?それとも、オンラインで入手できるウィキペディアの公開データセットはありますか?
私のプロジェクトの概要を説明するために、興味のあるいくつかの記事の興味深い単語を見つけたいと思います。しかし、これらの興味深い単語を見つけるために、tf/idf を適用して各単語の用語頻度を計算し、選択することを計画しています。頻度の高いもの。しかし、tf を計算するには、ウィキペディア全体での総出現数を知る必要があります。
これはどのように行うことができますか?