1. 概述:先准备哪些信息
- 准备:目标服务器公网IP或EIP,发生问题的时间段,客户端IP测点(本地、家宽、手机流量、境外VPS)。
- 工具:ping、traceroute(或tracert)、mtr、telnet/nc、curl、tcpdump、ssh、阿里云控制台登录权限。
2. 第一步:基础连通性测试(本地到服务器)
- 在本地终端执行:ping -c 10 <服务器IP>;注意丢包比例和延迟抖动。
- 若 ping 丢包或超时,记录时间点并从不同网络(家宽、4G、同城VPS)重复测试,确认是否为单点网络问题。
3. 第二步:路由追踪(定位哪一跳出问题)
- 使用 traceroute 或 mtr:traceroute -n
或 mtr -rwzbc 100 。
- 观察第一跳(本地网关)、中间运营商节点、到达阿里云边缘节点(通常在香港/亚太交换点)的丢包与延迟突增。若丢包始于运营商链路或跨国链路,多为线路问题。
4. 第三步:从服务器端往外测试
- SSH 登录服务器,执行:ping -c 10 8.8.8.8 和 ping -c 10 <客户端IP>。
- 若服务器无法稳定连出但本地能连入,可能是服务器出站路由、NAT、或阿里云路由表问题。
5. 第四步:端口与服务连通性测试
- 本地或第三方机执行:telnet <端口> 或 nc -vz <端口>。
- 在服务器上检查服务监听:ss -tulpn | grep <端口>。确认服务是否绑定到0.0.0.0或正确网卡。
6. 第五步:检查服务器防火墙与内核设置
- 查看防火墙:iptables -L -n -v、ufw status、firewall-cmd --list-all。临时清空规则测试:iptables -F(测试前备份:iptables-save > /root/iptables.bak)。
- 查看 sysctl:sysctl net.ipv4.ip_forward、net.ipv4.tcp_syncookies、net.ipv4.tcp_mtu_probing。若疑似 MTU 导致碎包,尝试 echo 1 > /proc/sys/net/ipv4/tcp_mtu_probing。
7. 第六步:阿里云控制台相关检查
- 登录阿里云控制台:检查安全组规则(入方向/出方向端口允许情况)、网络ACL、EIP绑定状态、弹性网卡ENI、VPC路由表与子网设置。
- 若使用SLB或NAT网关,检查与后端实例的健康检查与转发规则。
8. 第七步:抓包与日志分析
- 使用 tcpdump 抓包:tcpdump -i eth0 host <客户端IP> and port <端口> -w /tmp/cap.pcap;在出问题时段抓取,下载并用 Wireshark 分析三次握手/重传/ICMP。
- 查看系统日志:dmesg、/var/log/messages、/var/log/syslog、应用日志,寻找网卡错误、驱动异常或大量重启记录。
9. 第八步:如何判断是线路问题还是配置问题(决策要点)
- 若 traceroute 在运营商链路或境外海缆跳点出现丢包/高延迟,且多个客户端一致:倾向线路问题。
- 若只有单个客户端或某一子网出现,且服务器自测到外网正常:倾向客户端或中间运营商问题。
- 若服务器本身对外 ping 丢包或服务端抓包显示 SYN 到达但无应答,倾向服务器配置或防火墙/应用问题。
10. 第九步:针对线路问题的后续操作
- 收集 traceroute/mtr 报告截图与 pcap,联系阿里云工单并提供时间点与抓包;同时联系本地/中间运营商投诉,提供故障链路证据。
- 临时方案:更换海外机房或使用 CDN、WAF、全球加速(阿里云GA)缓解用户访问。
11. 第十步:针对配置问题的修复建议
- 若是安全组/防火墙问题,修正规则并验证;若是服务绑定错误,修改启动配置重启服务;若是内核网络参数不当,调整 sysctl 并持久化到 /etc/sysctl.conf。
- 重启网络服务:systemctl restart network 或 /etc/init.d/network restart(视发行版而定),必要时重启实例。
12. 常见排错命令速查表
- ping/traceroute/mtr;ss/ss -tulpn;iptables-save;tcpdump -i eth0 -w /tmp/cap.pcap;sysctl -a | grep net.ipv4。
13. 问:如何快速判断是阿里云侧的问题还是我的服务器配置问题?
- 答:先从两方面测试:A) 从不同公网测点(家宽、4G、境外VPS)同时 traceroute 到服务器,若多点同时在同一跳出现丢包则多为阿里云或运营商链路问题;B) SSH 到服务器后向外 ping 常见公网 IP(8.8.8.8/114.114.114.114)和回测客户端 IP,若服务器对外不稳且本地 firewall/iptables 有阻断或服务未监听,说明为服务器配置问题。
14. 问:抓包结果看到大量 SYN 重传,这一定是线路问题吗?
- 答:不一定。SYN 重传既可能由链路丢包导致,也可能由服务器未正确响应(服务未启动、防火墙丢弃、内核限制)。需结合服务监听(ss)、iptables 规则和服务器端抓包(是否看到 SYN 到达但没有 SYN-ACK 返回)来判断。
15. 问:如果确认是线路问题,联系阿里云或运营商时我需要准备哪些信息?
- 答:准备完整时间段、出现问题的客户端 IP、服务器 IP、traceroute/mtr 输出(文本)、tcpdump pcap 文件、ping 丢包统计、阿里云控制台实例ID及EIP,按这些证据提交工单或给运营商,以便加快定位与处理。
来源:香港阿里云服务器连接不时如何确认是线路还是配置问题