java - JAVA での Streamin API の最適な検索アルゴリズム

Question

次のような20,000のキーワードを検索するTwitterストリーミングを使用しています

https://stream.twitter.com/1/statuses/filter.json?delimited=length&track=api,software,hardwate,etc

ここでは、for ループのような順次検索を使用していますが、20,000 のキーワードを 1 twit 検索するのに非常に時間がかかります。

トラフィックの多い http/web からのデータを検索するために Java で利用できる最良の検索方法はありますか。

score 0 · Accepted Answer

データをリアルタイムで処理する必要がない場合は、情報検索(IR) 手法を使用できます。

「一晩中」すべてのデータのインデックスを作成するバックエンドサーバーを用意します¹。逆インデックスを作成し、アプリをリッスンします。
次に、アプリはバックエンドサーバー(ストリーミングサーバーではなく) にクエリを実行し、標準の IR 手法で、必要なキーワードをクエリとして "要求" します。

Apache Luceneが役に立ちます。Lucene は成熟したオープンソースの情報検索ライブラリであるため、インデックス作成とクエリの両方に役立ちます。

それが役立つことを願っています

(1) ここで「一晩」とは、次のいずれかを意味します。

アプリが非アクティブな時間がある場合は、それを行うことができます
インデックスのクエリとビルドを同時にサポートするライブラリがいくつかあります。lucene がその 1 つであるかどうかは思い出せません。
2 つのサーバーを使用できます。各時点で、1 つはインデックスを作成し、もう 1 つはクエリに使用できます。

java - JAVA での Streamin API の最適な検索アルゴリズム

1 に答える 1

Related

Reference