• 带宽利用率(Link Utilization):持续监控上行/下行带宽占用率,建议阈值设为70%以便预留突发流量空间。
• 报文丢包率(Packet Loss):理想值低于0.1%,高于1%需查找链路或缓冲区拥塞。
• RTT/延迟(Latency):香港到中国大陆常见基线 RTT 20-80ms,电商或API延迟应控制在200ms以内。
• 抖动(Jitter):实时语音/视频场景应低于30ms,否则影响体验。
• 带宽峰值与5分钟均值:记录95分位(P95)带宽用于计费与扩容决策。
• 常用工具:Prometheus + Grafana 做时序监控与可视化,Node Exporter 收集主机指标。
• 日志与链路追踪:ELK/EFK 用于日志分析,Jaeger/Zipkin 做请求追踪。
• 告警策略:CPU>85%持续5分钟、内存>90%、丢包>0.5%等触发短信/Slack告警。
• 指标采样频率:基础指标每15s采样,细粒度网络指标可每5s采样。
• 容量预警:自动根据P95/P99趋势预测30天内是否需要扩容或降级CDN策略。
• 使用反向代理缓存(Nginx/HTTP cache)与CDN边缘缓存,减少源站带宽占用。
• 开启HTTP/2或HTTP/3,合并请求、复用连接减少握手与带宽浪费。
• 静态资源放到对象存储(OSS)并结合多节点CDN,建议缓存过期设置为7天或更长。
• 启用Gzip/Brotli压缩,文本文件可降低30%-80%带宽消耗。
• TCP参数调优:在Linux上启用BBR拥塞控制,调高net.core.rmem_max、wmem_max以提高吞吐。
• 上游防护:使用云厂商的Anti-DDoS基础线(如峰值清洗阈值10Gbps以上)+黑洞策略。
• WAF与规则:对常见Web攻击(SQLi、XSS)启用自定义规则并结合验证码/速率限制。
• 网络ACL与防火墙:仅开放必要端口(80/443/22限公网管理IP),使用安全组白名单。
• 流量异常检测:基于每分钟并发连接数与请求速率建模,异常提升触发流量分流到scrubbing中心。
• 实战策略:在攻击期间把静态资源切换到缓存模式、源站降级并启用严格限速与验证码页面。
• 背景:某香港跨境电商,日均请求400万,促销峰值请求10分钟内上升5倍。
• 服务器配置(单节点示例):8 vCPU (Intel Xeon), 16GB RAM, 500GB NVMe, 公网带宽 1Gbps(共享),Anti-DDoS 标准10Gbps。
• 监控数据(峰值与基线见下表),P95带宽用于计费与扩容决策。
• 处置流程:促销前7天开启预警策略、扩容3台同配置实例加入LB、CDN缓存率提升至92%。
• 效果:促销期间源站平均CPU从40%降至22%,带宽峰值由800Mbps降至260Mbps,页面响应延时从420ms降至120ms。
| 指标 | 基线值 | 促销峰值 | 建议阈值/备注 |
|---|---|---|---|
| CPU 平均使用率 | 35% | 82% | 阈值 85% |
| 内存使用率 | 60% | 92% | 警戒 90% |
| 网络入/出 | 120/95 Mbps | 720/640 Mbps | 保留20%带宽余量 |
| P95 响应时间 | 180 ms | 420 ms | 目标 < 250 ms |
| 丢包率 | 0.02% | 0.6% | 警戒 0.5% |