from newspaper import Article
import pdb
from unidecode import unidecode
def get_article_newspaper(url):
article = Article(url,en='zh') # Chinese
article.download();
article.parse()# article.text if blank!
print unidecode(article.text).replace('Image caption','')
url='http://www.tyfzw.cn/?sw=774&b=177%20'
get_article_newspaper(url)
これが一番整備されているようだったので試してみました。また、グースとボイラーパイプのどちらも機能しませんでした。
後で翻訳したい:
import goslate
def language_translate(text): #translates to language
gs = goslate.Goslate()
language_id = gs.detect('text')
if language_id != 'en':
text=gs.translate(text, 'en')
return text