javascript - ページのどの部分が記事であるかを確認する方法は?

Question

Instapaper や Readability に似たツールを作成したいと考えています。Web ページからテキストを検索して取得するための最良の方法は何だろうと考えています。あなたはなにか考えはありますか？

score 1 · Accepted Answer

Ruby を始めるためのアイデアを次に示します。以下のコードをテストしたところ、問題なく動作しています。参考になるかもしれませんのでご覧ください。

require 'open-uri'    
require 'cgi'    
require 'nokogiri'

$url='http://www.stackoverflow.com'

$txt_file = open($url)   

$raw_contents = $txt_file.read

$html = Nokogiri::HTML(CGI.unescapeHTML($raw_contents)).content
#strip the web page fetched out of all hmtl tags and encoded chars

$txt_file = File.new('c:\ruby193\bin\web-content\stack.txt', "w")
#stack.txt now contains a stripped, pure txt file which you can manipulate further

$txt_file.write($html)    
$txt_file.close

puts 'Here is the stripped text of your webpage\n'+$html

score 1 · Accepted Answer

質問が広すぎて具体的な答えを出すことができませんが、この質問を 3 つの懸念事項に分けることができます。

Web リソースを取得する方法。libcurlたとえば、または話すことができるものなら何でもHTTP。
DOMパーサー。xml.dom.minidomたとえば、Pythonにはがあります。
DOMツリーを走査してテキストを抽出するアルゴリズム。class=article、または<div>1024 文字を超える sなどの要素をスキャンするかどうかは、完全にあなた次第です。これを正しく行うには、実験が必要です。

これらの懸念事項ごとに個別の質問をすることをお勧めします。もちろん、それぞれについて調査を行った後です。:)

javascript - ページのどの部分が記事であるかを確認する方法は?

2 に答える 2

Related

Reference