1.
确认服务套餐与带宽限制,如合同备注的峰值带宽和流量计费方式。
备份网站与数据库,建议在排查前完成一次全量备份并校验可还原性。
准备好登录凭据:控制面板、SSH 密钥、SFTP 账号与 API Token。
启用基础监控:CPU/内存/网络流量与磁盘I/O 的历史曲线,至少保留 7 天数据。
记录基线指标:正常访问时的平均 RTT、带宽利用率和页面响应时间,便于对比。
2.
检查本地到主机的连通性:示例数据 ping 服务器 8.8.8.8 返回 22ms,丢包 0%。
使用 traceroute 确认路由跳数与延迟突增,若第 N 跳延迟异常则联系上游运营商。
核对 DNS 配置:A/AAAA、CNAME 与 MX 记录是否指向正确 IP,TTL 设置是否过低(示例 TTL=300)。
检测是否存在 DNS 污染或缓存:可对比多个公共解析器(8.8.8.8/1.1.1.1)的解析结果。
若为负载均衡或多 IP,校验每个节点的健康检查与后端权重配置是否一致。
3.
查看 CPU 与负载:示例 VPS 配置为 8 vCPU,16GB RAM,平时 CPU 利用率 < 40%,异常时达 85%+。
检查内存与交换分区:内存使用接近 100% 且 swap 使用频繁时需排查内存泄露或缓存争用。
监测磁盘 I/O:iostat 显示 await > 50ms 或 %util 接近 100% 说明 I/O 瓶颈。
网络带宽利用率:若链路为 1Gbps,监测到 950Mbps 长时间飙升,需判定合法流量或攻击流量。
示例操作:重启问题服务、调整 PHP-FPM 池大小(pm.max_children)、优化数据库索引。
4.
案例概述:客户在 Bluehost 美国节点部署电商站,流量高峰时用户报告 502/504。
初步诊断:负载平均值 5.6(8 vCPU),Nginx 错误日志显示 upstream timed out 后端 PHP 响应超时。
配置示例(服务器片段):CPU 8 核,内存 16GB,带宽 1Gbps,无流量上限;数据库单节点 4 vCPU/8GB。
解决步骤:将 PHP-FPM max_children 从 50 调整为 80,Nginx keepalive_timeout 从 75s 调至 30s,查询慢 SQL 并添加索引。
恢复效果:页面平均响应由 1.8s 降至 0.6s,502 错误率从 3.2% 降至 0.1%。
5.
确认 CDN 是否工作:检查 HTTP 响应头是否带有 CDN 节点标识(如 X-Cache 或 via)。
缓存策略:核对缓存控制头(Cache-Control, Expires),确保静态资源被正确缓存。
若使用 CDN,验证回源设置是否正确,回源带宽是否成为瓶颈。
SSL/TLS 检查:验证证书链完整性、过期时间与支持的协议(建议 TLS1.2/1.3),示例证书有效期剩余 120 天。
排查方法:在 CDN 控制台清理缓存、切换到直连回源以排除 CDN 问题、使用在线 SSL 检测工具。
6.
识别异常流量模式:短时间内并发连接数或 PPS 激增,典型指标为 10 万+ 连接数或数十 Gbps 的流量峰值。
示例真实数据:一次 SYN flood 峰值观测到 18万 pps、带宽峰值 25 Gbps,导致 1Gbps 端口饱和。
立即措施:启用 Bluehost/上游提供的 DDoS 防护(如流量清洗),或将域名切换到 Cloudflare 的代理模式。
长期防护:配置防火墙规则(限速、黑名单/白名单)、TCP 同步 Cookie、连接限制与 Geo-blocking。
恢复流程:与主机商沟通流量日志、保留 pcap/Netflow 供分析,评估是否需要升级带宽或使用托管清洗服务。
7.
设置阈值报警:CPU > 80% 持续 5 分钟、带宽利用 > 85%、磁盘 I/O 延迟 > 50ms。
日志聚合:集中收集 Nginx/系统/防火墙日志便于关联分析,持续保留至少 14 天。
定期演练:每季度执行一次故障切换和恢复演练,验证备份和应急联系方式。
使用速率与配额控制:对 API 和登录接口设置限流,避免应用级放大导致资源耗尽。
联系渠道:记录 Bluehost 支持单号流程与上游 CDN/清洗厂商的应急联系人信息。
| 项目 | 示例数值 | 说明 |
|---|---|---|
| CPU | 8 vCPU | 中小型电商常用配置 |
| 内存 | 16 GB | 缓存与数据库缓冲充足 |
| 带宽 | 1 Gbps 保底 / 峰值可扩展 | 购于美国节点,注意上游链路 |
| 磁盘 | NVMe 200 GB | 高 I/O 场景建议更高配置 |
| 典型流量峰值 | 25 Gbps(攻击峰值) | 需清洗服务或 CDN 缓解 |
8.
先确认是否为网络/域名/服务器本身问题,再按网络→资源→应用→安全的顺序排查。
尽量将监控与日志做标准化,确保能在故障发生时快速定位问题域。
对于大带宽租用场景,优先准备好 DDoS 防护与清洗方案,避免单点链路饱和。
与 Bluehost 支持保持沟通记录,必要时申请流量清洗或上游策略调整。
保留典型故障的恢复脚本和步骤文档,以便在紧急情况下快速执行。