2

私は、新しく開発されたソースの品質を上司に証明し(つまり、リグレッション、更新の欠落、または間違いがないことを意味します)、レイテンシーを証明するために、2つの市場データフィードソースを比較するツールを実装する最初の段階にあります。改善。

したがって、必要なツールは、更新の違いを確認し、どのソースが最適であるかを判断できる必要があります(レイテンシーの観点から)。

正確には、参照ソースはReutersであり、もう1つは社内で開発したFeedハンドラーである可能性があります。ロイターの実装が私たちのものと完全に異なる可能性があるため、更新が同じ順序で到着しない可能性があると人々は私に警告しました。したがって、更新が同じ順序で到着する可能性があるという事実に基づく単純なアルゴリズムは、機能しない可能性があります。

私の最初のアイデアは、指紋を使用してフィードソースを比較することです。これは、Shazaamアプリケーションが送信するチューブのタイトルを見つけるために行うためです。グーグルはそれがFFTに基づいていると私に言った。そして、信号処理理論が市場アクセスアプリケーションでうまく機能するかどうか疑問に思いました。

その分野でのあなた自身の経験を知りたかったのですが、ニーズを満たすために非常に正確なアルゴリズムを開発することは可能ですか?あなた自身の考えは何でしたか?指紋ベースの比較についてどう思いますか?

4

2 に答える 2

1

データを提供する交換にデータの一意の識別子がある場合、実装はかなり簡単ですが、簡単ではありません。

本質的に、2つのフィードをサブスクライブするアプリがあります。(これは、非侵入型の監視/測定のためにスニフベースのソフトウェアでも行うことができます-私もそれに対処することを試みることができます)

一致しないデータ/更新の2つのリスト(または各フィードからの「一致しない」サンプルを記録する他の方法)を保持します。更新が行われるたびに、他のデータフィードから他のリストで対応するアイテムを探します。正常に一致すると、このペアリングを保存できます。更新が行われるたびに、何らかの方法で「タイムスタンプ」(おそらくローカルマシンの時刻)を割り当てる必要があります。この単純なケースの原点は同じ交換であるため、相対レイテンシーを決定するのはかなり簡単です。

この方法では、データのサブスクライブアプリを作成する必要があります。

欠落している更新の処理や一致しないデータのタイムアウト、更新の一意のIDEを提供しない可能性のある交換やフィードの処理方法、データベンダーのWRTローカル時間とUTC時間の間違いの回避など、多くの問題があります。

Sniffing the data is similar but you'd capture the data through pcap or hardware capture cards and then parse the streams based on the endpoints of the packets. This is a bit more difficult than straight subscription but has the advantage of being non-intrusive and fairly flexible about what sets of data you can measure.

于 2010-05-25T15:35:25.657 に答える
0

企業行動データの複数のソースを取り巻くフィードに対して私が見たアプローチの1つは、フィードが過去に最も正確である傾向があるというヒューリスティックな情報を維持することであり、したがって、データにより大きな重みを与えます。

もちろん、すべてのタイプの市場データの中で、企業行動はおそらく最も少ない量の1つであるため、この手法はおそらくデータをチェックするために拡張することはできません。

于 2010-02-11T13:02:32.650 に答える