現在、テンソルフロー モデルをスケーラブルな方法で提供するという課題に取り組んでいます。私の知る限り、推奨される解決策は、標準のTensorFlow ModelServerを使用することです。一般的な要件はこれでかなりうまく処理されますが、もっと欲しいです。「制限」のようなパラメーターを解析して、上位 n ロジット + 返される確率を定義することにより、転送されるデータ量を減らしたいと考えています。
調査中に、次の解決策を特定しました。
1) モデルの構築中に、より高度な SignatureDef を作成します。
2) 上記の機能を使用して、基本的なtensorflow/servingプロジェクトをカスタマイズします。
3) 標準の Tensorflow Modelserver でモデルを提供し、resp を再構築するための後処理サービスを構築します。定義済みの方法で結果をフィルタリングします。
私よりも経験豊富な人が私の質問について詳しく説明してもらえますか? - コードスニペットまたはリンクは素晴らしいでしょう。
前もって感謝します。