web-crawler - 記事から著者を抽出する

Question

タイトルの通り記事をクローリングして、あとは著者だけです。

以下は私のコードで、pyqueryを使用して段落と作成者をコンパイルし、作成者のみが空白を返します

対象サイト：http: //business.transworld.net/153984/news/surfrider-foundation-names-chad-nelsen-new-ceo/

def extract_text_pyquery(html):
    p = pq(html)
    article_whole = p.find(".entry")
    p_tag = article_whole('p')
    print len(p_tag)
    print p_tag
    for i in range (0, len(p_tag)):
        text = p_tag.eq(i).text()
        print text
    entire = p.find("#main")
    author = entire.find('a').filter('.author')
    print 'By:', author

score 0 · Accepted Answer

クラスは作者ではありませんrel。期間はクラスを選択します。代わりにをフィルタリングする必要があり'[rel="author"]'ます。ブラケットを使用すると、非標準タグを追加できます。

web-crawler - 記事から著者を抽出する

1 に答える 1

Related

Reference