指定した Web ページの文字 (a、b、c など) のヒストグラムを作成しようとしています。ハッシュを使用してヒストグラム自体を作成する予定です。ただし、実際に HTML を取得する際に少し問題があります。
私の現在のコード:
#!/usr/local/bin/ruby
require 'net/http'
require 'open-uri'
# This will be the hash used to store the
# histogram.
histogram = Hash.new(0)
def open(url)
Net::HTTP.get(URI.parse(url))
end
page_content = open('_insert_webpage_here')
page_content.each do |i|
puts i
end
これにより、HTML の取得がうまくいきます。しかし、それはすべてを取得します。www.stackoverflow.com の場合、次のようになります。
<body><h1>Object Moved</h1>This document may be found <a HREF="http://stackoverflow.com/">here</a></body>
それが正しいページであるふりをして、html タグは必要ありません。取得しようとしているだけObject Moved
ですThis document may be found here
。
これを行う合理的に簡単な方法はありますか?