8

クラウドプラットフォーム上のnginxとunicornで実行されるRails(3.2)アプリがあります。「ボックス」はUbuntu12.04で実行されています。

システム負荷が約70%以上になると、nginxは突然(そして一見ランダムに) 502Badゲートウェイエラーをスローし始めます。負荷が少ないときは、そのようなものはありません。私はさまざまな数のコア(4、6、10-クラウドプラットフォーム上にあるので「ハードウェアを変更」できます)を試しましたが、状況は常に同じです。(CPUの負荷はシステムの負荷に似ています。ユーザーランドは55%で、残りはシステムで盗まれ、十分な空きメモリがあり、スワッピングはありません。)

502は通常バッチで提供されますが、常にではありません。

(コアごとに1つのユニコーンワーカーと1つまたは2つのnginxワーカーを実行します。10コアで実行する場合は、以下の構成の関連部分を参照してください。)

これらのエラーの原因を追跡する方法がわかりません。ユニコーンの労働者が(時間内に)サービスを提供できないことに関係しているのではないかと思いますが、CPUが飽和していないようで、IOを待つ理由がわかりません(しかし私はそれを確認する方法もわかりません)。

原因を突き止める方法を教えていただけますか?


ユニコーン構成(unicorn.rb):

worker_processes 10
working_directory "/var/www/app/current"
listen "/var/www/app/current/tmp/sockets/unicorn.sock", :backlog => 64
listen 2007, :tcp_nopush => true
timeout 90
pid "/var/www/app/current/tmp/pids/unicorn.pid"
stderr_path "/var/www/app/shared/log/unicorn.stderr.log"
stdout_path "/var/www/app/shared/log/unicorn.stdout.log"
preload_app true
GC.respond_to?(:copy_on_write_friendly=) and
  GC.copy_on_write_friendly = true
check_client_connection false

before_fork do |server, worker|
  ... I believe the stuff here is irrelevant ...
end
after_fork do |server, worker|
  ... I believe the stuff here is irrelevant ...
end

そしてngnixの設定:

/etc/nginx/nginx.conf

worker_processes 2;
worker_rlimit_nofile 2048;
user www-data www-admin;
pid /var/run/nginx.pid;
error_log /var/log/nginx/nginx.error.log info;

events {
  worker_connections 2048;
  accept_mutex on; # "on" if nginx worker_processes > 1
  use epoll;
}

http {
    include       /etc/nginx/mime.types;
    default_type  application/octet-stream;
    log_format  main  '$remote_addr - $remote_user [$time_local] "$request" '
                      '$status $body_bytes_sent "$http_referer" '
                      '"$http_user_agent" "$http_x_forwarded_for"';
    access_log  /var/log/nginx/access.log  main;
    # optimialization efforts
    client_max_body_size        2m;
    client_body_buffer_size     128k;
    client_header_buffer_size   4k;
    large_client_header_buffers 10 4k;  # one for each core or one for each unicorn worker?
    client_body_temp_path       /tmp/nginx/client_body_temp;

    include /etc/nginx/conf.d/*.conf;
}

/etc/nginx/conf.d/app.conf

sendfile on;
tcp_nopush on;
tcp_nodelay off;
gzip on;
gzip_http_version 1.0;
gzip_proxied any;
gzip_min_length 500;
gzip_disable "MSIE [1-6]\.";
gzip_types text/plain text/css text/javascript application/x-javascript;

upstream app_server {
  # fail_timeout=0 means we always retry an upstream even if it failed
  # to return a good HTTP response (in case the Unicorn master nukes a
  # single worker for timing out).
  server unix:/var/www/app/current/tmp/sockets/unicorn.sock fail_timeout=0;
}

server {
  listen 80 default deferred;
  server_name _;
  client_max_body_size 1G;
  keepalive_timeout 5;
  root /var/www/app/current/public;

  location ~ "^/assets/.*" {
      ...
  }

  # Prefer to serve static files directly from nginx to avoid unnecessary
  # data copies from the application server.
  try_files $uri/index.html $uri.html $uri @app;

  location @app {
    proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
    proxy_set_header Host $http_host;
    proxy_redirect off;

    proxy_pass http://app_server;

    proxy_connect_timeout      90;
    proxy_send_timeout         90;
    proxy_read_timeout         90;

    proxy_buffer_size          128k;
    proxy_buffers              10 256k;  # one per core or one per unicorn worker?
    proxy_busy_buffers_size    256k;
    proxy_temp_file_write_size 256k;
    proxy_max_temp_file_size   512k;
    proxy_temp_path            /mnt/data/tmp/nginx/proxy_temp;

    open_file_cache max=1000 inactive=20s; 
    open_file_cache_valid    30s; 
    open_file_cache_min_uses 2;
    open_file_cache_errors   on;
  }
}
4

1 に答える 1

22

nginx エラー ログで見つかった式をグーグルで調べたところ、これは既知の問題であり、nginx とは何の関係もなく、Unicorn とはほとんど関係がなく、OS (Linux) の設定に根ざしていることが判明しました。

問題の核心は、ソケットのバックログが短すぎることです。これがどの程度であるべきかについては、さまざまな考慮事項があります (クラスター メンバーの障害をできるだけ早く検出するか、アプリケーションが負荷制限を押し続けるか)。しかし、いずれにせよ、listen :backlog微調整が必​​要です。

私の場合、 alisten ... :backlog => 2048で十分であることがわかりました。(私はあまり実験しませんでしたが、必要に応じてそれを行うための良いハックがあります.nginxとunicornの間で異なるバックログと長いバックアップで通信するための2つのソケットを持つことで、短いキューが失敗する頻度をnginxログで確認してください。 .) 科学計算やYMMVの結果ではありませんのでご注意ください。

ただし、多くの OS (ほとんどの Linux ディストリビューション、Ubuntu 12.04 を含む) では、OS レベルのデフォルトのソケット バックログ サイズの制限がはるかに低い (128 程度) ことに注意してください。

次のように OS 制限を変更できます (root として)。

sysctl -w net.core.somaxconn=2048
sysctl -w net.core.netdev_max_backlog=2048

これらを追加/etc/sysctl.confして、変更を永続的にします。(/etc/sysctl.confで再起動せずにリロードできますsysctl -p。)

プロセスで開くことができるファイルの最大数も増やす必要があるかもしれないという言及があります(使用ulimit -nおよび/etc/security/limits.conf永続性のために)。私はすでに他の理由でそれを行っていたので、それが違いを生むかどうかはわかりません.

于 2013-03-21T09:56:02.280 に答える