跳到主要内容

排障指南

排障按层推进:先确认云资源,再确认节点互通,再确认 Kubernetes,再确认 Cilium 和 Cluster Mesh。不要跨层猜测。

Terraform 层

问题现象定位命令判断依据修复动作
plan 失败make aliyun-planmake tencent-plan变量校验、provider 配置、读 API 报错修正变量、凭据、地域和可用区
apply 失败查看 apply 输出和云控制台创建权限、库存、配额、规格不满足调整权限、规格、可用区或配额
output 缺失make aliyun-outputmake tencent-output资源未创建或 outputs 变更重新 apply 后再 output

节点与 underlay 层

问题现象定位命令判断依据修复动作
SSH 失败ssh -vvv <user>@<ip>用户、key、公网 IP、安全组任一不匹配修正 ssh_user、公钥路径或 admin_cidrs
WireGuard 不通make check-underlayUDP 51820、peer、路由异常修正安全组和 WireGuard 配置
跨云节点丢包节点间 ping/trace只公网通、WireGuard 地址不通先修 underlay,再看 Kubernetes

Kubernetes 层

问题现象定位命令判断依据修复动作
节点 NotReadymake check-clusterskubelet、containerd、CNI 未就绪查 kubelet 日志和 Cilium Pod
kubeadm 初始化失败kubeadm 输出、节点系统日志配置、端口、镜像或运行时异常修正配置后重新执行对应脚本
worker 加入失败join 脚本输出token、证书、API Server 可达性重新生成 join 信息并验证网络

Cilium 与 Cluster Mesh 层

问题现象定位命令判断依据修复动作
Cilium 不健康cilium statusagent、operator、Pod 网络异常检查 Helm values 和节点资源
Cluster Mesh 不 connectedmake check-clustermeshNodePort、LB、安全组、cluster ID逐项验证 32379 入口
跨集群服务失败Cilium CLI、kubectl service 检查Mesh connected 但服务未导出或 DNS 异常先验证 Mesh,再验证服务发现

排障原则

  • 先收集最小证据,再改配置。
  • 一次只改一个变量或一类规则,方便确认因果。
  • 云资源失败看 provider/API,节点失败看 SSH 和系统日志,集群失败看 kubelet/CNI,跨集群失败看 Mesh 入口。
  • 每次修复后回到对应层的验收命令,不要跳到最终测试。