検索エンジンを実装したプロジェクトがあります。私たちのガイドは、O' Reilly の Collective Intelligence 2007 ブックに記載されているコードを実装することを提案しました。これは、Web ページがインデックス化されるコードの一部です。Sqlite3 データベースを利用しています。コードの最後の部分でエラーが発生し、多くの調査を行った後でも成功しませんでした。
def addtoindex(self,url,soup):
if self.isindexed(url): return
print 'Indexing '+url
# Get the individual words
text=self.gettextonly(soup)
words=self.separatewords(text)
# Get the URL id
urlid=self.getentryid('urllist','url',url)
# Link each word to this url
for i in range(len(words)):
word=words[i]
if word in ignorewords: continue
wordid=self.getentryid('wordlist','word',word)
self.con.execute("insert into wordlocation(urlid,wordid,location)\values (%d,%d,%d)" % (urlid,wordid,i))
最後の行に次のエラーが表示されます。
sqlite3.OperationalError: 認識されないトークン: "[知らない記号]"