python - Lists Python でのブラックリスト、Web ページからデータを取得中

Question

基本的に、bing の検索クエリからリンクを取得するための非常に厄介なコードを作成しました。私が直面している問題は、あまりにも多くの bing 関連のリンクを受け取っていることです。

これらを削除するためにこの現在のコードを試しましたが、むしろブラックリストの方が好きです。

これは私のコードです:

import re, urllib
class MyOpener(urllib.FancyURLopener):
    version = 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.2.15) Gecko/20110303 Firefox/3.6.15'
myopener = MyOpener()
dork = raw_input("Dork:")
pagevar = ['1','11','23','34','45','46','47','58','69']
for page in pagevar:
    bingdork = "http://www.bing.com/search?q=" + str(dork) + "&first=" + str(page)
    bingdork.replace(" ", "+")
    links = re.findall('''href=["'](.[^"']+)["']''', myopener.open(bingdork).read(), re.I)
    toremove = []
    for i in links:
        if "bing.com" in i:
            toremove.append(i)
        elif "wlflag.ico" in i:
            toremove.append(i)
        elif "/account/web?sh=" in i:
            toremove.append(i)
        elif "/?FORM" in i:
            toremove.append(i)
        elif "javascript:void(0);" in i:
            toremove.append(i)
        elif "javascript:" in i:
            toremove.append(i)
        elif "go.microsoft.com/fwlink" in i:
            toremove.append(i)
        elif "g.msn.com" in i:
            toremove.append(i)
        elif "onlinehelp.microsoft.com" in i:
            toremove.append(i)
        elif "feedback.discoverbing.com" in i:
            toremove.append(i)
        elif "/account/web?sh=" in i:
            toremove.append(i)
        elif "/?scope=web" in i:
            toremove.append(i)
        elif "/explore?q=" in i:
            toremove.append(i)
        elif "https://feedback.discoverbing.com" in i:
            toremove.append(i)
        elif "/images/" in i:
            toremove.append(i)
        elif "/videos/" in i:
            toremove.append(i)
        elif "/maps/" in i:
            toremove.append(i)
        elif "/news/" in i:
            toremove.append(i)
            for i in toremove:
                links.remove(i)
                for i in links:
                    print i

入力したとします: Dork: cfm id

私が得る結果は次のとおりです。

http://pastebin.com/eGgUKYwV

私が望む結果は次のとおりです。

http://pastebin.com/Xi28BzXs

次のようなものを削除したいと思います。

/search?q=cfm+id&amp;lf=1&amp;qpvt=cfm+id
/account/web?sh=5&amp;ru=%2fsearch%3fq%3dcfm%2520id%26first%3d69&amp;qpvt=cfm+id
/search?q=cfm+id&amp;rf=1&amp;qpvt=cfm+id
/search?q=cfm+id&amp;first=69&amp;format=rss
/search?q=cfm+id&amp;first=69&amp;format=rss
/?FORM=Z9FD1
javascript:void(0);
/account/general?ru=http%3a%2f%2fwww.bing.com%2fsearch%3fq%3dcfm+id%26first%3d69&amp;FORM=SEFD
/?scope=web&amp;FORM=HDRSC1
/images/search?q=cfm+id&amp;FORM=HDRSC2
/videos/search?q=cfm+id&amp;FORM=HDRSC3

基本的に、bing から有効なリンクのみを取得し、bings 側からすべてのがらくたを削除できるフィルターが必要です。

どうもありがとう、BK PS 私の説明が悪い場合は申し訳ありません。

score 0 · Accepted Answer

beautifulsoup、lxml、またはhtml5lib（lxml.etreeを優先）、疑似コードを使用してcss / xpathクエリでhtml解析ルートを試しましたか：

html = htmlparse.parse(open(url))
hrefs = []

for a in html.xpath('//a'):
    if a['href'].startswith('http://') or a['href'].startswith('https://'):
       hrefs.append(a['href'])

もちろん、これは疑似コードです。beautifulsoup、lxml、またはhtml5libのいずれを使用するかを調整する必要があります。

探しているものが、ホワイトリストに基づいてページ html をサニタイズ/クリーンアップするようなものである場合は、CleanTextの使用を楽しむことができます。このプログラムは、正規表現を使用して属性をフィルタリングするようにさらにカスタマイズできますが、これは演習として残します;)

python - Lists Python でのブラックリスト、Web ページからデータを取得中

1 に答える 1

Related

Reference