1.
明确业务需求与防护目标
- 目标说明:先写出业务场景(网站、电商、游戏、API等)和可承受的最大停机时长、数据丢失影响。
- 带宽与并发:统计正常峰值带宽、突发峰值以及并发连接数(用监控历史数据或Nginx/Apache日志估算)。
- 风险等级:列出可能遭遇的攻击类型(SYN flood、UDP flood、HTTP flood、应用层CC等),并标注优先级。
2.
制定可量化的SLA考核指标清单
- 必要指标:建议包含:可用率(如99.99%)、秒解/触发时间、启动清洗时间、最大可防护流量(Gbps/百万pps)、误报率/放行误判、恢复时间(RTO/RPO)。
- 量化示例:要求“自动检测并在60秒内触发清洗;大流量事件(>10Gbps)在5分钟内开始完全清洗;全网可防护能力至少100Gbps”。
3.
核验运营商与防护技术细节
- 技术点:确认使用的防护方式(云端清洗、边缘黑洞、行为层防护、WAF与速率限制),是否支持按源IP/URI/国家/ASN规则处置。
- 架构验证:要求查看拓扑图(BGP多线、Anycast、Scrubbing centers 位置)、日志采集方式与报警接口(Syslog/JSON/API)。
4.
检查SLA中关于DDoS的具体条款
- 具体条款:确认SLA是否专门分DDoS类目,写明“触发条件、响应时间、缓解确认标准、赔偿机制”。
- 赔偿示例:如果未在承诺时间内完成缓解,每延迟一小时按当月服务费的5%作为服务信用返还,超过24小时则可选择解除合同并退还剩余费用。
5.
支持能力的实操验证步骤
- 工单测试:提交带时戳的测试工单(示例见第8项),记录首次响应时间与解决周期。
- 电话与应急链路:要求提供24/7紧急电话、工程师直连或Slack/Telegram渠道,并进行一次模拟通话以验证是否有人接听与记录时间。
6.
进行网络性能与可达性现场测试
- 常用命令:从你的运营中心或云主机跑:ping -c 5 your-server-ip;traceroute your-server-ip;mtr -c 100 your-server-ip。记录往返时延与丢包率。
- BGP检测:使用looking glass或whois查询IP/ASN归属与公告路径,验证对方是否有多线BGP与上游冗余。
7.
要求并审阅运营商提供的历史攻击与缓解报告
- 报告内容:请求近6-12个月的攻击事件样本(流量峰值、ppps、缓解时间、误封情况)。
- 分析方法:对比样本中的缓解时间是否符合其SLA承诺,若发现多次超时,需要求原因与改进措施。
8.
测试支持响应与故障处理流程(实操范例)
- 发起工单:示例邮件主题与内容:Subject: [SLA Test] 请在30分钟内确认并回复 — 内容简述期望响应时间并要求回传工单号与预计处理时限。
- 记录评估:记录首次自动回复时间、人工回复时间与解决方案质量,判断是否符合SLA(如首次确认≤15分钟,工程师介入≤60分钟)。
9.
模拟合法的防护能力压力测试(必须获得书面许可)
- 合法流程:先与供应商书面确认测试窗口、目标IP、流量阈值及应急切换机制,避免误伤第三方。
- 监控要点:在测试时同时监控带宽曲线、服务器CPU/内存、连接数与应用响应,确认防护链路是否自动触发并回稳。
10.
评估日志、告警与可视化能力
- 日志需求:确认是否能导出清洗日志(包含源IP、目标端口、时间戳、规则命中),格式(JSON/CSV)与保留时长。
- 告警接口:要求支持Webhook/SNMP/Email/API推送,并测试一次告警下发流程。
11.
审查事故沟通与升级链路(RACI矩阵)
- 沟通流程:要求供应商提供事件通知模板、升级联系人表(工程师、经理、法务),并明确响应角色与责任。
- 演练建议:要求与供应商每6-12个月做一次桌面演练,并记录演练报告以供合同审计。
12.
合同条款与谈判要点(可复制示例)
- 建议条款:加入“明确触发DDoS缓解的流量阈值、自动与手动缓解时限、服务信用赔偿表、可视化日志导出与年审条款”。
- 法务提示:把“不可抗力”与“运营失误”定义清楚,避免将普遍超时归类为不可抗力。
13.
部署与上线前的验收清单
- 验收项:BGP路由验证、ping/traceroute测试、告警下发测试、日志导出测试、应急联系电话确认、合同中的SLA条款签字确认。
- 验收建议:把验收清单签成补充协议作为合同附件,遇到不达标可拒绝付尾款或要求折扣。
14.
长期运维与性能复核建议
- 定期复核:每季度要求对方提供攻击与防护汇报,半年进行一次全面SLA复审。
- 指标追踪:把关键指标(MTTR、首次响应、缓解成功率)纳入你的监控面板和月度KPI。
15.
问:如何在不影响业务的前提下测试对方的秒解能力?
- 答:先书面申请“免影响测试窗口”,选择低峰期并限定流量阈值,由供应商在旁观察并记录;或要求供应商用其内部仿真平台对你目标IP做“自测并提供报告”,同时监控真实业务响应,确认无误后再全面上线。
16.
问:如果对方未达到SLA,我能拿到什么赔偿或补救?
- 答:常见做法是按合同中的服务信用(percentage of monthly fee)返还费用,严重违约可触发终止条款并退还预付费用。签合同时务必把赔偿公式、上限和争议仲裁地点写清楚。
17.
问:如何验证供应商对复杂应用层攻击(如HTTP Flood)的处理能力?
- 答:要求查看WAF规则库与学习机制、请求速率限制能力、会话保持策略,并用真实模拟请求(在许可下)进行压测,同时检查误封率与白名单机制;若可能,要求供应商演示一次历史事件的溯源与解决过程。
来源:选择美国秒解高防服务器时需重点考察的SLA与支持能力