Ubuntu 12.04、Python 2.7 を使用しています
特定の URL からコンテンツを取得するための私のコード:
def get_page(url):
'''Gets the contents of a page from a given URL'''
try:
f = urllib.urlopen(url)
page = f.read()
f.close()
return page
except:
return ""
return ""
が提供するページのコンテンツをフィルタリングするにはget_page(url)
:
def filterContents(content):
'''Filters the content from a page'''
filteredContent = ''
regex = re.compile('(?<!script)[>](?![\s\#\'-<]).+?[<]')
for words in regex.findall(content):
word_list = split_string(words, """ ,"!-.()<>[]{};:?!-=/_`&""")
for word in word_list:
filteredContent = filteredContent + word
return filteredContent
def split_string(source, splitlist):
return ''.join([ w if w not in splitlist else ' ' for w in source])
クエリを実行すると、クエリが存在する場所が 返されるようにインデックスを作成する方法を教えてfilteredContent
ください。Xapian
URLs