python - Djangoから呼び出された長時間実行プロセスの状態をどのように保存する必要がありますか？

Question

ユーザーがファイルをアップロードできるようにするDjangoアプリケーションに取り組んでいます。これらのファイルをAmazonS3に送信する前に、これらのファイルに対してサーバー側の処理を実行する必要があります。この質問とこのブログ投稿への回答を読んだ後、これを処理する最善の方法は、ビューハンドラーにPyroリモートオブジェクトのメソッドを呼び出して非同期で処理を実行させ、すぐにHttp200をクライアントに返すことであると判断しました。。私はこれのプロトタイプを作成しましたが、うまく機能しているようですが、クライアントがアプリケーションをポーリングしてファイルが処理されてS3にアップロードされたかどうかを確認できるように、処理の状態も保存したいと思います。

ポーリングは簡単に処理できますが、プロセス状態を格納する適切な場所がわかりません。Pyroプロセスで書き込み可能で、ポーリングビューで読み取り可能である必要があります。

私は、実際には30〜60秒間しか持続しないはずのデータの列をデータベースに追加することを躊躇しています。
Djangoの低レベルキャッシュAPIを使用し、ファイルIDをキーとして使用することを検討しましたが、これが実際にキャッシュフレームワークが設計されているものであるとは思わず、予期しない問題が発生する可能性があるかどうかはわかりません。このルート。
最後に、処理を行うPyroオブジェクトに状態を格納することを検討しましたが、それでも、ビューがPyroオブジェクトから状態をクエリするかどうかを認識できるように、ブール値の「processing_complete」データベース列を追加する必要があるようです。

もちろん、データベースからの状態の分離には、データの整合性に関する懸念もあります（サーバーがダウンし、このすべてのデータがメモリ内にある場合はどうなりますか？）。経験豊富なWebアプリケーション開発者がこの種のステートフル処理をどのように処理するかを聞いています。

score 6 · Accepted Answer

これを行うには、データベースに「リクエスト」テーブルを作成します。

アップロードが到着したら、アップロードされた File オブジェクトを作成し、Request を作成します。

バックグラウンドバッチプロセッサを開始します。

200 の「作業中」ページが返されます。このページには、リクエストとそのステータスが表示されます。

私たちのバッチプロセッサは Django ORM を使用しています。完了すると、Request オブジェクトが更新されます。メール通知を送信できます (送信しません)。ほとんどの場合、ユーザーが再度ログインして処理が完了したことを確認できるように、ステータスを更新するだけです。

バッチサーバーアーキテクチャに関する注意事項。

ポートでバッチ処理リクエストを待機するのは WSGI サーバーです。リクエストは ID 番号付きの REST POST です。バッチプロセッサはこれをデータベースで調べて処理します。

サーバーは、REST インターフェースによって自動的に開始されます。実行されていない場合は、スポーンします。これにより、ユーザートランザクションが遅く見えますが、まあまあです。クラッシュするはずはありません。

また、実行されていることを確認するための簡単な crontab もあります。せいぜい「生きてますか？」の間の30分間のダウンになります。チェックします。正式な起動スクリプトはありませんが (mod_wsgi を使用して Apache で実行します)、WSGI ファイルにアクセスし、ヘルスチェックを実行する URL に POST を実行する「再起動」スクリプトを作成することができます (そして、バッチプロセッサ)。

バッチサーバーの起動時に、POST を取得していない未処理の要求が存在する場合があります。したがって、デフォルトの起動では、リクエストキューからすべての作業が取り出されます。

score 5 · Accepted Answer

私はこれが古い質問であることを知っていますが、誰かが私の答えがこの時間の後でさえ役に立つと思うかもしれないので、ここに行きます。

もちろん、データベースをキューとして使用することもできますが、その目的のために開発されたソリューションがあります。

AMQPはそのためだけに作られています。CeleryまたはCarrot 、および RabbitMQやZeroMQなどのブローカーサーバーと一緒に。

それが私たちの最新のプロジェクトで使用しているものであり、うまく機能しています。

あなたの問題には、CeleryとRabbitMQが最適のようです。RabbitMQはメッセージの永続性を提供し、Celeryは、並行して実行されているプロセスのステータスをチェックするためのポーリング用の簡単なビューを公開します。

オクトピーにも興味があるかもしれません。

score 1 · Accepted Answer

したがって、必要なのはジョブキューです。あなたの場合、状態が短命であっても、状態を保存するためにDBを絶対に使用します。それはあなたのすべての要件を満たしているように思えます.そして、あなたが利用できるすべての可動部分がすでにそこにあるので、実装するのはそれほど難しくありません. より複雑なものが必要でない限り、シンプルにしてください。

より強力で洗練されたものが必要な場合は、Gearmanのようなものを検討します。

python - Djangoから呼び出された長時間実行プロセスの状態をどのように保存する必要がありますか？

3 に答える 3

Related

Reference