-5

Instapaper や Readability に似たツールを作成したいと考えています。Web ページからテキストを検索して取得するための最良の方法は何だろうと考えています。あなたはなにか考えはありますか?

4

2 に答える 2

1

Ruby を始めるためのアイデアを次に示します。以下のコードをテストしたところ、問題なく動作しています。参考になるかもしれませんのでご覧ください。

require 'open-uri'    
require 'cgi'    
require 'nokogiri'

$url='http://www.stackoverflow.com'

$txt_file = open($url)   

$raw_contents = $txt_file.read

$html = Nokogiri::HTML(CGI.unescapeHTML($raw_contents)).content
#strip the web page fetched out of all hmtl tags and encoded chars

$txt_file = File.new('c:\ruby193\bin\web-content\stack.txt', "w")
#stack.txt now contains a stripped, pure txt file which you can manipulate further

$txt_file.write($html)    
$txt_file.close

puts 'Here is the stripped text of your webpage\n'+$html
于 2012-06-28T14:17:12.053 に答える
1

質問が広すぎて具体的な答えを出すことができませんが、この質問を 3 つの懸念事項に分けることができます。

  1. Web リソースを取得する方法。libcurlたとえば、または話すことができるものなら何でもHTTP

  2. DOMパーサー。xml.dom.minidomたとえば、Pythonには があります。

  3. DOMツリーを走査してテキストを抽出するアルゴリズム。class=article、または<div>1024 文字を超える sなどの要素をスキャンするかどうかは、完全にあなた次第です。これを正しく行うには、実験が必要です。

これらの懸念事項ごとに個別の質問をすることをお勧めします。もちろん、それぞれについて調査を行った後です。:)

于 2012-06-28T14:11:21.900 に答える