0

MySQL データベースにいくつかのフィルタリング基準に従って、リアルタイムのツイートを保存したいと考えています。16 CPU マシンを使用しているという事実を考慮して、どちらのアプローチが優れているかを理解したいと思います。私の場合はストリーミング API を使用する方がよいため、tweet4j ライブラリを使用して Java アプリケーションを簡単に構築できます。この場合、フィルタリングと保存は、マルチスレッド プログラミングを使用して行うことができます。一方、Spark を発見したところ、数行で同じことを実行できますが、メモリが 1 つしかないというボトルネックのままです。

Twitter のレート制限に到達するのが非常に難しく、分散クラスターを利用できないことを考えると、spark が実際の改善になるかどうかを理解したいと思います。

助けてくれてありがとう。

4

0 に答える 0