Nginx启用reuseport[转载]

案例

这两天做一个http测试,客户端使用一台8核16G的虚机,服务器使用8台8核16G的虚机,服务器挂在负载均衡后端。
客户端使用wrk打流
服务器开启nginx,返回 200 ok
测试结果发现服务器nginx的cpu利用率恨不均匀,后来查到有reuseport这个参数,放在listen后面

listen 80 default_server reuseport;

增了了试验了下,果然好用。
下图是对比,上面是不开启reuseport,可以看到cpu利用率在20-40%,而开启了,cpu利用率只有12%了。

http请求

image.png

https请求

image.png

原理

未使能 reuseport

一个单独的监听socket通知工作进程接入的连接,并且每个工作线程都试图获得连接。
image.png

使能 reuseport

系统内核决定哪一个有效的socket监听器(通过隐式的方式,给哪一个工作进程)获得连接。这可以减少工作进程之间获得新连接时的封锁竞争
image.png

reuseport的基准性能测试

在一个36核的AWS实例运行wrk基准测试工具,测试4个NGINX工作进程。为了减少网络的影响,客户端和NGINX都运行在本地,并且让NGINX返回OK字符串而不是一个文件。我比较三种NGINX配置:默认(等同于accept_mutex on),accept_mutex off和reuseport。如图所示,reuseport的每秒请求是其余的两到三倍,同时延迟和延迟标准差也是减少的。

image.png

总结

使用锁进行负载均衡的方式已经不推荐使用了,Nginx 在 1.11.3 之后也默认不开启 accept_mutex 。

Linux 3.9 引入了 SO_REUSEPORT 支持,Linux 4.5 引入了 EPOLLEXCLUSIVE 支持。只要开启 reuseport 或者升级到 Linux 4.5+,就不用开启accept_mutex。

HTTP压测工具之wrk

wrk是一款简单的HTTP压测工具,托管在Githu上,https://github.com/wg/wrk.
wrk 的一个很好的特性就是能用很少的线程压出很大的并发量.

安装

git clone https://github.com/wg/wrk.git  
cd wrk  
make  

如果编译过程中出错:

src/wrk.h:11:25: fatal error: openssl/ssl.h: No such file or directory  
#include <openssl/ssl.h>  

则需要安装openssl,使用sudo apt-get install libssl-dev或 sudo yum install openssl-devel安装即可,最后编辑etc/profile配置环境变量。由于笔者使用的是阿里云centos7,相关依赖都已经存在了,所以可以直接使用。

使用

wrk -t12 -c100 -d30s http://www.baidu.com

这段脚本的输出是:

[root@jerrik /]# wrk -t12 -c100 -d30s http://www.baidu.com  
Running 30s test @ http://www.baidu.com
  12 threads and 100 connections
  Thread Stats   Avg      Stdev     Max   +/- Stdev
    Latency   211.76ms  304.92ms   1.97s    88.17%
    Req/Sec    72.93     68.72   797.00     90.97%
  23725 requests in 30.05s, 347.47MB read
  Socket errors: connect 0, read 48, write 0, timeout 50
Requests/sec:    789.57
Transfer/sec:     11.56MB

注意:一般线程数不宜过多. 核数的2到4倍足够了. 多了反而因为线程切换过多造成效率降低. 因为 wrk 不是使用每个连接一个线程的模型, 而是通过异步网络 io 提升并发量. 所以网络通信不会阻塞线程执行. 这也是 wrk 可以用很少的线程模拟大量网路连接的原因. 而现在很多性能工具并没有采用这种方式, 而是采用提高线程数来实现高并发. 所以并发量一旦设的很高, 测试机自身压力就很大. 测试效果反而下降.

参数解释:

  • 12 threads and 100 connections:
    总共是12个线程,100个连接(不是一个线程对应一个连接)
  • latency和Req/Sec:
    代表单个线程的统计数据,latency代表延迟时间,Req/Sec代表单个线程每秒完成的请求数,他们都具有平均值, 标准偏差, 最大值, 正负一个标准差占比。一般我们来说我们主要关注平均值和最大值. 标准差如果太大说明样本本身离散程度比较高. 有可能系统性能波动很大.
  • 23725 requests in 30.05s, 347.47MB read
    在30秒之内总共有23725个请求,总共读取347.47MB的数据
  • Socket errors: connect 0, read 48, write 0, timeout 50
    总共有48个读错误,50个超时.
  • Requests/sec和Transfer/sec
    所有线程平均每秒钟完成了789.57个请求,每秒钟读取11.56MB数据量

如果想看看响应时间的分布,可以增加--latency:
wrk -t12 -c100 -d30s --latency http://www.baidu.com

结果为:

[root@jerrik ~]# wrk -t12 -c100 -d30s --latency http://www.baidu.com 
Running 30s test @ http://www.baidu.com
  12 threads and 100 connections
  Thread Stats   Avg      Stdev     Max   +/- Stdev
    Latency   204.30ms  287.90ms   1.97s    88.61%
    Req/Sec    71.43     67.59   810.00     89.77%
  Latency Distribution
     50%   14.76ms
     75%  296.79ms
     90%  545.03ms
     99%    1.40s 
  23676 requests in 30.03s, 346.84MB read
  Socket errors: connect 0, read 42, write 0, timeout 46
Requests/sec:    788.29
Transfer/sec:     11.55MB

说明有50%的请求在14.76ms之内,90%在545.03ms之内。