1.
部署前的准备与需求评估
- 明确业务需求:带宽需求(峰值/均值)、时延上限、丢包阈值、SLA 要求。
- 确认接入点:选择沙田数据中心或香港近岸机房,确认电路类型(CN2 GIA/普通国际链路)、是否需要MPLS/VPN。
- 确定IP/ASN规划:公网IP数量、是否做双上游BGP(建议至少两条不同物理链路)和自治系统号(ASN)。
2.
选择供应商与链路类型
- 优先选择有CN2 GIA直连的运营商或云互联服务商,确认链路端到端SLA与故障响应时效。
- 要求提供链路拓扑图(物理与逻辑),明确入点(沙田交换机)与出口到香港骨干的跳数与运营商间互联点。
- 索取测试报告样例(历史丢包、抖动、时延)以及维护联系单。
3.
物理与链路接入配置步骤
- 到场验收:核对光纤类型(单模/多模)、接口速率(10G/1G)、SFP型号,进行光功率测试。
- 配置MTU:与对端协商MTU,建议设置为9000(若不支持则调整TCP MSS)。示例:在Cisco上设置interface Ethernet0 mtu 9000。
- 启用链路健康检测:开启`carrier-delay`或Link-State监控,配置链路聚合(LACP)时确保哈希策略一致。
4.
BGP对等与路由策略(详细命令示例)
- 建立BGP会话:配置本地ASN、对端ASN、邻居IP和描述。Cisco例子:
router bgp 65001
neighbor 203.0.113.2 remote-as 45102
neighbor 203.0.113.2 description CN2-HK-ShaTin
- 配置基本防护:设置最大前缀(neighbor x.x.x.x maximum-prefix 1000)、route-map 过滤不合法前缀、prefix-list限制公告范围。
- 调整流量偏好:使用local-preference提高本地出口优先级或社区标签与MED配合做流向控制。
5.
链路稳定性测试与验收流程
- 主动测试:使用iperf3 测试吞吐(iperf3 -c server -P 8 -t 60),使用ping -f(Linux)做丢包压力测试,mtr 测试逐跳时延与抖动。
- 被动测试:启用NetFlow/sFlow采样观察流量分布,部署SNMP抓取接口错误、丢包、丢帧、BGP会话状态。
- 验收标准:连续72小时无丢包/抖动超过SLA阈值,BGP稳定(会话不掉线),延迟达标。
6.
故障切换与高可用设计
- 双链路/双上游:配置两条不同运营商的CN2或一条CN2+一条国际普通链路,使用BGP本地优先级或SD-WAN做主动/被动切换。
- 快速宕机检测:启用BFD(Bidirectional Forwarding Detection)加速BGP故障感知,BFD interval设置为50ms-100ms视设备能力。
- 设备冗余:边缘路由器使用VRRP/HSRP或双控制平面设备做热备份,并同步路由策略与ACL。
7.
监控、报警与日志管理
- 关键指标:监控链路利用率、丢包率、单跳/端到端时延、抖动、BGP会话状态、接口错误计数。
- 告警策略:设置分级告警(warning/critical),如丢包>1%触发warning,>5%触发critical并通知值班。
- 日志保存:保留BGP更改日志、配置变更记录与syslog至少90天,使用SIEM做日志分析与告警关联。
8.
安全加固与运维注意点
- BGP安全:启用MD5(neighbor x.x.x.x password xxxx),配置prefix-limit和ROA/IRR校验,使用route-filter避免被动接收非法前缀。
- 防火墙与ACL:边缘设备限定管理端口(SSH/HTTPS)仅允许运维IP,启用登录审计与二步验证。
- 变更管理:定义变更窗口、回滚步骤、预先通知影响范围,变更前后分别做路由表/流量比对并截图归档。
9.
日常运维 SOP(具体步骤)
- 每日巡检(脚本化):检查BGP邻居、接口错误、链路使用率、关键业务延迟(合成监测),示例命令:show ip bgp summary / show interfaces counters。
- 每周任务:备份配置、更新路由过滤策略、核对SLA数据与运营商提供的NOC报告。
- 故障响应流程:1) 立刻切换到备用链路(若未自动切换);2) 收集traceroute/mtr/iperf/CPU内存等诊断信息;3) 提交工单并持续与运营商沟通。
10.
问:如何快速定位沙田CN2链路的抖动与丢包来源?
答:先用mtr(或WinMTR)对目标(例如境外云或对端网关)做连续测试观察丢包/延迟跳点,结合iperf做端到端吞吐测试;在本端查看接口错误、丢帧、CRC,并在骨干上使用NetFlow定位异常流量。若怀疑运营商侧问题,提交带有时间戳的pcap和mtr输出给对端NOC,要求对端在骨干节点做correlation检查。
11.
问:部署过程中如何保证切换不影响线上业务?
答:采用以下措施:先在非高峰期做切换演练;双链路与路由策略预置(BGP local-pref/AS-path prepending)并测试回退;启用BFD加速故障感知;对会话敏感服务(VoIP/数据库)配置会话保持或SD-WAN应用识别策略,确保切换期间流量按策略平滑迁移。
12.
问:CN2相比普通国际链路有哪些运维上的差异注意点?
答:CN2通常抖动更低、时延更稳定,但也更依赖单一运营商的骨干:1)与普通链路相比,故障排查常需与运营商NOC紧密配合并提供详细业务流量证据;2)SLA更严格,要求运维按SLA KPI做持续监控;3)常见需注意的细节包括路径监控、社区标记应用以及对端策略差异引起的流向变化。
来源:企业部署建议沙田香港cn2稳定性与运维注意点