出现网站或应用无法访问、端口连通失败、部分用户能访问但多数不能时,通常表现为服务不可达或大量连接超时。
第一层:主机自身检查,确认服务进程与端口监听(ps、ss/netstat、systemctl)。第二层:防火墙与安全组,检查 iptables/nftables、云控制台安全组策略是否误拦截。第三层:网络连通,使用 ping、traceroute 或 mtr 检查到香港节点的路由与丢包情况。第四层:高防设备或代理,查看高防平台是否存在清洗规则误判或限流。
在确认服务进程正常且本机无异常的情况下,临时放宽安全组规则、关闭本地防火墙或切换到备用 IP/线路,并与高防服务商沟通查看是否存在清洗或策略问题,以尽快恢复外部访问。
用户报告页面加载慢、API 响应超时,监控显示 RTT 上升或丢包率升高,带宽并未饱和但性能明显下降。
先在服务器端用 iftop、nload、sar 查看网卡带宽与 io 状况;再用 mtr 从多个节点到服务器进行连续路由追踪,判断问题是在本机、上游骨干、还是 CDN/高防节点。必要时在不同地区主机进行对比测试,排除局部 ISP 问题。
若定位为上游链路或高防清洗导致,临时策略包括切换至备用节点、启用多线路负载、对大流量来源做白/黑名单处理,或与运营商开启专线支持以降低丢包并保证关键链路恢复。
短时间内流量急剧上升,连接数暴增,CPU 或网络 IO 飙升,合法用户无法建立连接或响应极其缓慢。
第一时间启用高防平台的紧急清洗并切换到高防 IP(如果设备支持“灰度切换”优先使用);在本地限速、加严格 ACL,阻断明显恶意来源;利用流量分析工具(tcpdump、ngrep)抓包,结合防护平台日志识别攻击特征(SYN flood、UDP flood、HTTP GET flood 等)。
预案应包括:与高防供应商的应急联络方式、备用 IP/节点切换流程、流量清洗策略模板、以及回滚条件。演练中需验证自动化切换脚本、健康检查与流量告警的触发阈值,确保遇到真实攻击时可在最短时间内恢复对外服务。
服务器无法 SSH 登录、主机不响应心跳、监控报警磁盘/内存/CPU 持续异常,或出现不可恢复的硬件故障提示。
首先确认是系统层面还是物理层面故障:查看 KVM/iLO/Console 输出、硬件监控(如 IPMI)日志;若为系统崩溃,尝试远程重启或进入救援模式进行文件系统与配置修复;若为硬件故障,立刻触发机房或供应商的硬件更换流程。
关键服务应部署主从或多活架构,数据采用异地备份与实时同步(如 DRBD、数据库主从、对象存储备份)。预案应包含故障切换脚本、DNS/负载均衡切换流程及备机自动上权策略,确保单点故障不会导致业务长时间中断。
监控应覆盖主机、网络、应用与高防层。关键指标包括 CPU、内存、磁盘 IO、网络带宽/丢包、连接数、响应时间以及错误率。告警策略要分级:信息、警告、紧急,并设定不同通知渠道与接触人。
将系统日志、应用日志与高防日志集中到 ELK/EFK 或类似平台,配置结构化日志与标签化策略,便于在故障时基于时间窗口快速检索攻击特征、异常请求来源及错误堆栈。
结合监控进行自动化应急动作,如超过阈值自动切换到备用池、自动拉起新实例、或触发高防的清洗策略。定期进行故障演练(包括 DDoS、链路故障、主机宕机),校验监控阈值、告警路径与自动化脚本的有效性,确保应急预案在真实事件中可用。