选择监控工具时要优先考虑对网络设备和主机的兼容性、实时性和扩展性。常见方案包括:Prometheus+Grafana(时序数据与可视化)、Zabbix(模板化监控与告警)、Nagios(进程与服务监控)、以及基于流量的工具如sFlow/NetFlow。若需要云或托管服务,可考虑运营商或云厂商提供的网络监控平台。
同时应核查工具对SNMP、ICMP、SSH、API、BGP以及NetFlow/sFlow的支持,因为监测CN2母机常需同时获取链路、路由与主机级指标。
1) 支持多种采集协议(SNMP、SSH、API)。 2) 能处理高频采样与长时间序列。 3) 告警规则灵活并支持抑制和去重。 4) 可与工单/通知系统集成。
关键指标包括:链路层的带宽利用率、丢包率、错误帧和接口抖动;路由层的BGP邻居状态、路由表变化与路径时延;主机层的CPU、内存、磁盘I/O、进程存活和温度/电源等硬件状态;以及应用层的响应时间与并发连接数。
还应部署主动探测(ping、traceroute、HTTP合成探测)来量化实时延迟和丢包,以及被动流量采样(NetFlow/sFlow)用以分析突发流量和异常会话。
链路与延迟类:10s-30s;BGP/路由状态:30s-60s;主机资源:30s-60s;NetFlow/sFlow:按采样率与流量峰值调整。
报警策略应包含多级阈值、抑制机制与告警分级。首先定义严重(S1)、警告(S2)、信息(S3)等级;对带宽、丢包、BGP掉线、接口错误等设置阈值并要求持续触发一定周期才报警以避免抖动告警。
同时配置告警抑制与去重:当上层报警(如链路Down)触发时抑制下层噪声报警。此外建立告警路由与升级链(短信、邮件、工单、电话)并把告警与运行手册(Runbook)关联,便于一线快速处理。
丢包>2%且持续30s触发S2;ICMP丢失100%或BGP邻居Down立即触发S1并发送SMS。
采集端建议采用分布式采集器(比如Prometheus Node Exporter、SNMP Exporter)放置在靠近设施的位置,降低采集延迟与丢包风险。对高频指标使用短期高分辨率存储,对历史趋势使用长期降采样存储(downsampling)。
可视化应建立概览视图(健康仪表盘)、设备/链路拓扑图、以及按服务的SLA视图。通过Grafana或Zabbix Dashboard把关键指标以图表、热力图与报警面板组合,便于运维快速定位问题。
1) 使用颜色与阈值区分状态。 2) 把告警与时间序列直接关联,点击告警能跳到相关图表。 3) 定期审查仪表盘的有效性,移除噪声。
常见故障包括链路抖动、BGP不稳定、接口错误、CPU飙升和硬件故障。排查流程一般为:确认告警 → 查看相关图表(带宽、丢包、路由变化)→ 使用主动探测(ping/traceroute)定位节点→ 登录设备查看接口/路由/日志→ 按Runbook执行临时措施(重启接口、刷新BGP、清理会话)。
自动化方面可通过脚本或自动化平台(Ansible、SaltStack)实现常见修复动作(重启服务、调整路由策略、下发配置变更)。同时将自动化动作作为有风险的“被批准操作”,需在监控平台记录并可回滚。