amazon-web-services - タスクの無限のリストをストリーミングするためのメカニカルタークアーキテクチャ

Question

Amazon Mechanical Turk API を使用して、一括タスクの単一バッチではなく一連のタスクを処理するソリューションをどのように設計すればよいでしょうか?

詳細は次のとおりです。

私たちのアプリは、1 日あたり約 1,000 枚の写真とビデオのストリームを受信します。各写真またはビデオには、転記する必要がある 6 ～ 8 個の数字 (電子デバイスのシリアル番号) と、転記の「確実性レベル」 (「確実」、「不明」、「読めない」など) が含まれています。」）。文字起こしは画像ごとに 10 秒未満、動画ごとに 20 秒未満で済み、必要なスキルやトレーニングは最小限です。

私たちのアプリは、これらの画像を 1 日中継続的にアップロードするので、数分以内にそれらの画像を数値に変換したいと考えています。理想的な解決策は、毎分新しいタスクをアップロードし (ピーク時には 1 分あたり 20 件未満)、結果も毎分ダウンロードすることです。

2 つの質問:

迅速なターンアラウンドタイム、精度、費用対効果のバランスを適切に保つには、一度に 1 つのタスクを送信する必要がありますか、それともタスクをバッチ処理するのが最適ですか? もしそうなら、バッチサイズを設定する際に考慮すべき変数は何ですか?
MTurk API をラップして、HIT 生成が 1 回限りではなくストリーミングで進行中の私たちのようなユースケースをより簡単に処理するライブラリまたはホストされたサービスはありますか?

初心者の質問で申し訳ありません。Mechanical Turk は初めてです。

score 1 · Accepted Answer

タスクを 1 つずつ Turk にストリーミングする

CreateHIT操作を使用して、メカニカルタークの API を介してタスクを個別にストリーミングできます。アプリで画像を受け取るたびに、CreateHIT オペレーションを呼び出して、タスクをすぐに Turk に送信できます。

API を介して通知を設定することもできるため、タスクが完了するとすぐにアラートを受け取ることができます。ターク通知 API ドキュメント

バッチ処理とストリーミング

バッチ処理とストリーミングに関しては、ターンアラウンドタイムとコストのバランスをうまくとるためには、ストリーミングの方が適しています。バッチ処理によってコストが大幅に削減されることはなく、精度の向上は、手動または自動化されたプロセスの実装によって、ワーカーのパフォーマンスを精査、レビュー、および追跡することに大きく依存します。

ライブラリとサービス

ほとんどのライブラリは、API で利用可能なすべての操作を提供するため、プログラミング言語でライブラリをグーグルまたは Github で検索するだけで済みます。(Ruby ライブラリrturkを使用)

ホステッドソリューションを提供する企業の適切なリストは、Quora の次の質問に対する回答のメタプラットフォームセクションにあります。Amazon Mechanical Turk に似たクラウドソーシングサービスは何ですか? (免責事項: 私の会社、Houdiniはそこにリストされているソリューションの 1 つです。)

amazon-web-services - タスクの無限のリストをストリーミングするためのメカニカル ターク アーキテクチャ

1 に答える 1

タスクを 1 つずつ Turk にストリーミングする

バッチ処理とストリーミング

ライブラリとサービス

Related

Reference

amazon-web-services - タスクの無限のリストをストリーミングするためのメカニカルタークアーキテクチャ