私が現在行っているのは、URLからテキストを解析してから、テキストをクリーンアップしてスペースで分解し、ファイルに保存することです。
私が難しいと思うのは、
複数のURLをスクレイピングする場合に備えて、一意のファイルのみを保存します。
ケース:site.com/page1から単語を削り取り、一意の単語をファイルに保存しました。site.com/page2をスクレイピングするとき、各単語がすでにファイルにあるかどうかを確認し、存在しない場合にのみ保存する必要があります。
私が考えているのは、$ word [0]を取得し、ファイルから各行を取得して、見つからないかどうかを確認して保存することです。しかし、それは数千回、数十万回の反復のようになります。
私はコードを探していませんが、それを効率的かつ高速に処理する方法を考えています。