私はNLTKを使用して、Webリクエスト内の大量のツイートにPOSタグを付けています。ご存知のように、Djangoはリクエストごとにリクエストハンドラーをインスタンス化します。
私はこれに気づきました:リクエスト(〜200ツイート)の場合、最初のツイートはタグ付けするのに最大18秒かかりますが、後続のすべてのツイートはタグ付けするのに最大120ミリ秒かかります。プロセスをスピードアップするために何ができますか?
「予熱要求」を実行して、要求ごとにモジュールデータがすでにロードされているようにすることはできますか?
class MyRequestHandler(BaseHandler):
def read(self, request): #this runs for a GET request
#...in a loop:
tokens = nltk.word_tokenize( tweet)
tagged = nltk.pos_tag( tokens)