Google アプリ エンジンで「逆ドキュメント頻度」を実装する必要があります。効率を改善するための提案を探しています。今、私は基本的なルーチンを
Webページを解析するとき、次のように各ペアをデータストアに保存します
for(String phrase : phrase_collection){
dataStore.put(phrase, domain);
}
後でIDFを計算するとき、データストアからフレーズの出現をフェッチします。
for(String phrase : phrase_collection){
long count = dataStore.get(phrase).size();
}
ただし、速度は満足のいくものではなく、30 秒のタイムアウトが頻繁に発生します。このシナリオでは、追加の課題があります。
-多言語入力(ウェブページ)。そのため、フレーズも異なる言語で書かれているため、キャッシュするのが難しくなっています。
- Web ページやランキング フレーズの解析にも時間がかかります。全体のプロセスは、charset_detect -> language_detect -> 異なる言語による解析 -> ランキングのようなものです。
GAE では常に有効になっています。
提案をお待ちしております!前もって感謝します!