一起学习服务器为啥产生大量的TIME WAIT - 东莞南城IDC服务

区域：: 东莞 > 南城
类别：: IDC服务
地址：: 南城高盛科技大厦

从这几个方面着手：

问题描述：什么现象？什么影响？

问题分析

解决方案

底层原理

问题描述
模拟高并发的场景，会出现批量的 TIME_WAIT 的 TCP 连接：

短时间后，所有的 TIME_WAIT 全都消失，被回收，端口包括服务，均正常。

即，在高并发的场景下，TIME_WAIT 连接存在，属于正常现象。

线上场景中，持续的高并发场景

一部分 TIME_WAIT 连接被回收，但新的 TIME_WAIT 连接产生；

一些极端情况下，会出现大量的 TIME_WAIT 连接。

Think：

上述大量的 TIME_WAIT 状态 TCP 连接，有什么业务上的影响吗？

Nginx 作为反向代理时，大量的短链接，可能导致 Nginx 上的 TCP 连接处于 time_wait 状态：

每一个 time_wait 状态，都会占用一个「本地端口」，上限为 65535(16 bit，2 Byte)；

当大量的连接处于 time_wait 时，新建立 TCP 连接会出错，address already in use : connect 异常

统计 TCP 连接的状态：

// 统计：各种连接的数量
$ netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'
ESTABLISHED 1154
TIME_WAIT 1645
Tips：TCP 本地端口数量，上限为 65535（6.5w），这是因为 TCP 头部使用 16 bit，存储「端口号」，因此约束上限为 65535。

问题分析
大量的 TIME_WAIT 状态 TCP 连接存在，其本质原因是什么？

大量的短连接存在

特别是 HTTP 请求中，如果 connection 头部取值被设置为 close 时，基本都由「服务端」发起主动关闭连接

而，TCP 四次挥手关闭连接机制中，为了保证 ACK 重发和丢弃延迟数据，设置 time_wait 为 2 倍的 MSL（报文大存活时间）

TIME_WAIT 状态：

TCP 连接中，主动关闭连接的一方出现的状态；（收到 FIN 命令，进入 TIME_WAIT 状态，并返回 ACK 命令）

保持 2 个 MSL 时间，即，4 分钟；（MSL 为 2 分钟）

解决办法
解决上述 time_wait 状态大量存在，导致新连接创建失败的问题，一般解决办法：

客户端，HTTP 请求的头部，connection 设置为 keep-alive，保持存活一段时间：现在的浏览器，一般都这么进行了

服务器端

允许 time_wait 状态的 socket 被重用

缩减 time_wait 时间，设置为 1 MSL（即，2 mins）

结论：几个核心要点
time_wait 状态的影响：

TCP 连接中，「主动发起关闭连接」的一端，会进入 time_wait 状态

time_wait 状态，默认会持续 2 MSL（报文的大生存时间），一般是 2x2 mins

time_wait 状态下，TCP 连接占用的端口，无法被再次使用

TCP 端口数量，上限是 6.5w（65535，16 bit）

大量 time_wait 状态存在，会导致新建 TCP 连接会出错，address already in use : connect 异常

现实场景
服务器端，一般设置：不允许「主动关闭连接」

但 HTTP 请求中，http 头部 connection 参数，可能设置为 close，则，服务端处理完请求会主动关闭 TCP 连接

现在浏览器中， HTTP 请求 connection 参数，一般都设置为 keep-alive

Nginx 反向代理场景中，可能出现大量短链接，服务器端，可能存在

解决办法
终于搞懂了服务器为啥产生大量的TIME_WAIT！
写在开头，大概 4 年前，听到运维同学提到 TIME_WAIT 状态的 TCP 连接过多的问题，但是当时没有去细琢磨