ウィキペディアの記事コレクション全体で特定の4つまたは5つの単語フレーズを見つけるプログラムを設計する必要があります(そうです、ページがたくさんあることはわかっています。これを行うためのばかと呼ぶ答えは必要ありません)。
私はこれまでこのようなものをあまりプログラムしていなかったので、2つの問題があります。
まず、プログラムですべてのページをクロールできるようにする方法(つまり、数百万のページのそれぞれをハードコーディングしないでください。すべての記事をハードドライブにダウンロードしましたが、どうすればよいかわかりません。プログラムにフォルダ内のそれぞれを反復処理するように指示します) 編集-ハードドライブにすべてのウィキペディアの記事があります
ページのスナップショットには、写真と表が含まれています。記事の本文だけを抽出するにはどうすればよいですか?
どちらの問題についてもご協力いただければ幸いです。