基本的にはWeb検索エンジンを設計しているので、Webページを取得するクローラーを設計しました。
読み込むと、Web ページは html 形式なので、すべてのタグがそこにあります。本文とタイトルからキーワードを抽出する必要があるため、すべてのタグ (「<」と「>」の間のすべて) を削除しようとしています。
以下のコードは小さな HTML ページではうまく機能しますが、これを大規模に (つまり、http://www.google.comから開始して) 使用しようとすると、メモリが不足します。
0 def remove_tags(self, s):
1 while '<' in s:
2 start = s.index('<')
3 end = s.index('>')
4 s = s[:start] + " " + s[end+1:]
5 return s.split()
4 行目でメモリ エラーが発生します。