香港三网优化服务器场景下的并发性能测试方案

从误区复盘看并发压力：香港三网优化服务器先回答“能否交付”

某次活动切流前，现场只盯着服务器 CPU，用 top 看着 30%~40% 就放行。上线后 10 分钟，部分用户请求返回超时，峰值时失败率上到 0.8%，而且主要集中在移动侧流量。回看压测过程才发现，指标只看了“有没有崩”，没定义“可交付阈值”。在香港三网优化服务器场景里，结论先行：并发测试是否达标，不能只靠单指标，要用“每网口径 + 延迟分位 + 失败率”一起判断，且前提是测试环境与生产关键链路、依赖和版本一致。否则任何“通过”都是不具备交付意义的。

指标定义：把“可交付”翻译成可计算的标准

一组建议直接复用的判定指标

先在压测计划写清阈值，不要边测边改。

指标	定义	计算口径
目标并发	压测时工具维持的并发连接数	计划值 × 实际可稳定维持时间
延迟 P95 / P99	95%、99% 请求耗时	越大越差，重点看 P99
失败率	失败请求占比	`(连接失败+超时+非预期HTTP状态码) / 总请求 ×100%`
错误分类率	连接错误、超时、HTTP错误分开统计	按日志或工具输出按类拆分
单位时间吞吐	请求成功数/秒（RPS）	取稳定阶段平均值

为了让三网可比，建议先按“运营商视图”拆分失败率，而不是只看全网总量。三网优化下同一台服务器可能出现“总失败率看似正常、某一路径异常”的情况。

条件化结论（可直接写进验收卡）

如果 P99 延迟和失败率同时稳定在预定阈值内，才可视为可交付；
如果某一网段延迟可接受、失败率却异常上升，需先判定该网段链路或路由问题；
如果延迟和失败率都平稳，但 RPS 达不到目标，说明不是“故障”，而是资源/参数配额未到位（如应用限流、上游瓶颈）。

测试环境与工具：从“可复现”开始，避免测试前后口径漂移

环境前置条件（至少确认一次）

测试实例与线上同主机规格、同内核参数大版本、同应用版本。
关闭与压测无关的弹性扩容与定时任务，避免波动。
时间同步正常（timedatectl status），避免跨节点日志对不齐。
记录三网出口映射方式：单出口、策略路由、源地址策略或三条专线直达。没有明确映射就不做“按网段”硬对比。

工具安装与基本健康检查（按系统匹配）

# Ubuntu / Debian
command -v wrk || command -v ab || sudo apt-get update
command -v wrk || command -v ab || sudo apt-get install -y wrk apache2-utils
command -v sysstat || sudo apt-get install -y sysstat iperf3 tcpdump curl iproute2

# CentOS / Rocky / AlmaLinux
command -v wrk || command -v ab || sudo yum install -y epel-release
command -v wrk || command -v ab || sudo yum install -y wrk httpd-tools
command -v sysstat || sudo yum install -y sysstat iperf3 tcpdump curl iproute

# 基础环境核对
uname -a
ip -brief addr
ip route
ulimit -n
cat /proc/sys/net/core/somaxconn
cat /proc/sys/net/ipv4/ip_local_port_range

上述参数只读查，不要直接大改。若后续验证要调参，先导出当前值，改动要可回滚。

执行步骤：测试方法按“基线-压测-分网-回查”走

1. 建立基线（建议先做 5~10 分钟）

# 仅观测，不做压力
watch -n 2 'date "+%F %T"; cat /proc/loadavg; vmstat 1 2 | tail -1; ss -s'

记录 CPU/IO 等待、连接状态基础量，基线数据是后续判断“压测是否引入退化”的第一依据。

2. 并发测试阶梯（压平平台后再切分网段）

先做总体并发，再做分网验证，避免一开始就把链路变量叠加。

APP_URL="http://127.0.0.1:8080/health"
DUR=180
THREADS=8
CONC_LIST=(30 60 120 240 480 960)

mkdir -p /tmp/hk3net_load
for c in "${CONC_LIST[@]}"; do
  if command -v wrk >/dev/null; then
    wrk -t"$THREADS" -c "$c" -d "${DUR}s" --latency --timeout 8s "$APP_URL" \
      | tee "/tmp/hk3net_load/wrk_c${c}.log"
  else
    ab -n $((DUR * 120)) -c "$c" -s 15 "$APP_URL" | tee "/tmp/hk3net_load/ab_c${c}.log"
  fi
  sleep 20
done

3. 三网路径侧压测（关键）

若有三网分流入口或对应测试源 IP，按网段独立压测。没有分流能力时，至少保留三网探测目的 IP 采样网络特征。

# 示例变量需要替换为你的真实测试IP或探测端
CT_TEST_IP=<CT_TEST_IP>
CU_TEST_IP=<CU_TEST_IP>
CM_TEST_IP=<CM_TEST_IP>
APP_PUBLIC_URL=http://203.0.113.10:8080/health

ping -c 30 -W 1 "$CT_TEST_IP" | tee /tmp/ping_ct.log
ping -c 30 -W 1 "$CU_TEST_IP" | tee /tmp/ping_cu.log
ping -c 30 -W 1 "$CM_TEST_IP" | tee /tmp/ping_cm.log

traceroute -n -m 15 "$CT_TEST_IP"
traceroute -n -m 15 "$CU_TEST_IP"
traceroute -n -m 15 "$CM_TEST_IP"

若存在多源 IP，可补一轮带来源的轻量 HTTP 采样：

curl --interface <CT_SRC_IP> -m 5 -o /dev/null -sS -w 'ct %{
http_code} %{time_total}\n' "$APP_PUBLIC_URL"
curl --interface <CU_SRC_IP> -m 5 -o /dev/null -sS -w 'cu %{
http_code} %{time_total}\n' "$APP_PUBLIC_URL"
curl --interface <CM_SRC_IP> -m 5 -o /dev/null -sS -w 'cm %{
http_code} %{time_total}\n' "$APP_PUBLIC_URL"

4. 同步采集日志与错误分类

# 按服务进程替换 service_name
journalctl -u <service_name> -n 300 --no-pager | grep -Ei "error|timeout|reset|refused|failed"
grep -Ei "5[0-9]{2}|4[0-9]{2}|timeout|upstream" /var/log/nginx/access.log | tail -n 200
dmesg | grep -Ei "TCP|SYN|retrans|out of memory" | tail -n 50

异常结果解释：不同曲线代表什么

常见异常与含义映射

现象	代表	先查什么
P99 延迟突然上升，平均和 P95 变化不大	请求尾部堆积	数据库等待、GC、上游慢接口、队列拥塞
失败率上升但 CPU 很低	网络建连/连接复用问题	`ss` 同时连接、TIME_WAIT、端口范围、应用连接池
某一网段失败率高，其他网段正常	回程链路异常或策略路由偏差	`ip rule`、`ip route`、对应 traceroute 与 ping 丢包
连接错误多于 5xx	往往是客户端侧超时、TLS/握手、FD 限制	应用超时配置、负载均衡日志、`ulimit -n`
只有高并发点出现大量重试	服务端限流或中间件瓶颈	限流配置、队列长度、连接池最大值

以香港三网优化服务器为例的判读逻辑

如果三网延迟都抬升，但失败率未超阈值，通常是应用层处理时间拉长，属于资源或代码问题。
如果延迟接近、失败率单网暴涨，通常是网络侧问题，大概率是该路径的路由策略或回程质量不稳定。
如果成功率下降和 CPU 同时攀升，可能是并发目标本身设置过高，先回到容量估算模型校准。

# 一个快速容量估算（Little's Law）
TARGET_QPS=1000
TARGET_P95_MS=120
EST_CONCURRENCY=$(( TARGET_QPS * TARGET_P95_MS / 1000 ))
echo "估算并发约：$EST_CONCURRENCY"

影响因素：先排系统，再改代码，再改参数

先确认网络层资源是否成为瓶颈：net.ipv4.ip_local_port_range、somaxconn、tcp_max_syn_backlog，以及 FD 限制。
再看应用层：连接池大小、超时、重试策略、限流和熔断。重试策略不当会把失败率放大。
最后看外部依赖：数据库、缓存、对象存储的并发上限和锁争用。并发测试看起来像网络问题时，经常是“下游队列”先堵住。
三网优化场景下，抓包和 traceroute 会暴露路径异常。若仅某一路径丢包明显，先修网络策略，不要立刻加硬件。

复测边界：如何用结果做“可交付”收口

把验证当成闭环，不要只做一轮。

统一压测脚本版本与机器参数，重复至少两次；
每个并发阶梯保持 180 秒以上，且采样时间窗口不低于稳定后 60 秒；
同时比较三网路径、同样时间段，检查失败率差异是否仍显著；
若某一网段不达标，必须重新定位该路径或中间链路后再复测，不允许因“总失败率达标”提前上线。

复测通过才建议进入发布验证：

每个网段都满足预先定义的延迟与失败率阈值；
目标并发下错误类型不再由单一网络异常主导；
在无参数临时改动后，连续两轮结果一致。若变更涉及路由、TLS、应用超时策略或底层参数，建议拉长观察窗口做一轮回归，边界外不直接宣告稳定。

并发压测压测验收三网分流环境校验复测闭环

上一篇 美国服务器的线路实测报告该怎么看：别只盯延迟数字 下一篇 服务器日志时间戳偏移对故障定位准确性的影响