K8s 服务访问排查 — 从 Pod、Service 到 Ingress 十步工作流

📅 创建于 2026-05-11 🔄 更新于 2026-05-12 📝 2222 字

kubernetes troubleshooting service pod ingress networking cni dns

K8s 服务访问排查 — 从 Pod、Service 到 Ingress 十步工作流

排查核心：分层定位，逐层排除，始终从 Pod 层开始，往上排查。

记住口诀：先 Pod 再 Svc，EP 不为空则网络通；Ingress 有问题先看日志，DNS 不通查 CoreDNS。

K8s 服务访问路径全景

在动手排查之前，必须清楚流量从客户端到后端 Pod 的完整路径。不同类型的服务，路径不同。

场景一：集群内部 Pod 访问 Service（最常见）

PodA → ClusterIP:ServicePort → kube-proxy (iptables/ipvs) → EndpointIP:ContainerPort → PodB

Pod 内进程访问 http://service-name.namespace.svc.cluster.local:port → CoreDNS 解析为 Service IP → kube-proxy 拦截并 DNAT 转发到后端某个 Endpoint IP。

场景二：集群外部通过 NodePort 访问

外部客户端 → NodeIP:NodePort → kube-proxy → EndpointIP:ContainerPort → PodB

外部请求到达任意节点的 NodePort，kube-proxy 将流量转发到后端 Pod（不一定是 Pod 所在节点）。

场景三：通过 Ingress 访问

外部客户端 → Ingress Controller Pod → Ingress 规则匹配 → Service:NodePort → kube-proxy → PodB

流量先打到 Ingress Controller，Ingress Controller 根据 Host 和 Path 规则找到对应的 Backend Service，再通过 Service 访问到后端 Pod。

排查优先级

第一优先级（5 分钟内定位）

Pod 是否 Running、Ready、日志是否正常
Service 的 Endpoints 是否有关联的 Pod IP
从 Pod 内直接访问 Service IP（绕过 Ingress 和 NodePort）

第二优先级（5-15 分钟）

kube-proxy 的 iptables/ipvs 规则是否正确生成
CNI 插件是否正常（flannel.1 / calico* 接口是否存在）
Ingress Controller 是否 Running、日志是否有 502/503 错误

第三优先级（15 分钟以上）

DNS 解析是否正常（CoreDNS 日志、ndots 配置）
NetworkPolicy 是否阻止了合法流量
跨节点网络路由是否正确（VPC/物理网络层）

第一步：确认问题范围和现象

1.1 确认问题是否真实存在

# 确认目标 Service 存在
kubectl get svc -n <namespace> <service-name>

# 确认 Pod 是否存在且 Running
kubectl get pods -n <namespace> -l app=<app-label>

# 如果 Pod 不在 Running，先解决 Pod 问题

1.2 从业务角度确认问题现象

# 测试外部能否访问（用 NodePort 或 LoadBalancer IP）
curl -v http://<external-ip>:<port>/<health-path>
# 典型 502: HTTP/1.1 502 Bad Gateway
# 典型超时: curl: (7) Failed to connect to ... Connection timed out

1.3 确认问题影响范围

# 查看该 Service 有多少个健康的 Endpoint
kubectl get endpoints -n <namespace> <service-name>
# 如果 endpoints 列表为空，说明 Service 没有关联到健康的 Pod
# 如果 endpoints 数量正常，问题可能在 Ingress 或更上层

# 查看 Pod 分布
kubectl get pods -n <namespace> -o wide | grep <service-name>

第二步：从 Pod 层开始排查

Pod 是流量的最终目的地。如果 Pod 本身不正常，前面查什么都不重要。

2.1 确认 Pod 是否存在且 Running

kubectl get pods -n <namespace> -o wide
# 确认所有副本都在 Running
kubectl get pods -n <namespace> --field-selector=status.phase!=Running

2.2 查看 Pod 事件

kubectl describe pod <pod-name> -n <namespace> | tail -20
# 常见问题线索：
# - ImagePullBackOff: 镜像拉取失败
# - CrashLoopBackOff: 容器启动后立即退出
# - CreateContainerConfigError: 配置错误（ConfigMap/Secret）
# - OOMKilled: 内存不足被杀
# - Evicted: 被驱逐

2.3 查看容器内部日志

# 当前日志
kubectl logs <pod-name> -n <namespace>
# 上次运行的日志（启动后立即崩溃）
kubectl logs <pod-name> -n <namespace> --previous
# 多容器 Pod 指定容器名
kubectl logs <pod-name> -n <namespace> -c <container-name>

2.4 登录 Pod 内部排查网络连通性

kubectl exec -it <pod-name> -n <namespace> -- /bin/sh

# 确认进程是否监听在预期端口
ss -tlnp  # 或 netstat -tlnp

# 测试 localhost 端口
wget -qO- http://127.0.0.1:<container-port>/healthz
# 或 curl -s http://127.0.0.1:<container-port>/healthz

如果 localhost 访问正常，但通过 Service 访问有问题 → 问题在 Service 层。

2.5 检查 Pod 资源限制

# 查看资源请求和限制
kubectl get pod <pod-name> -n <namespace> \
  -o jsonpath='{.spec.containers[*].resources}'

# 查看实际资源使用
kubectl top pod <pod-name> -n <namespace>

资源限制不当会导致 OOMKill 或 CPU Throttle → 请求超时。

第三步：排查 Service 层

3.1 确认 Service 配置正确

kubectl get svc <service-name> -n <namespace> -o yaml
# 重点检查：
# - spec.selector: 是否正确关联到目标 Pod 的 label
# - spec.ports: 端口号、目标端口、协议
# - spec.type: ClusterIP / NodePort / LoadBalancer

常见配置错误一：selector 写错

# 确认 Pod 实际的 label
kubectl get pods -n <namespace> --show-labels
# 验证 selector 是否能匹配到 Pod
kubectl get pods -n <namespace> -l app=web-frontend
# 如果没有输出，说明 selector 写错了

常见配置错误二：端口配置错误

targetPort 写成了 named port，但容器没有定义该 named port
targetPort 使用了数字端口，但与容器实际监听端口不一致

3.2 确认 Endpoints 存在且健康

kubectl get endpoints <service-name> -n <namespace>
# 正常输出：my-service  10.244.1.15:8080,10.244.2.23:8080
# 为空：<none>

Endpoints 为空的排查方法：

# 1. 确认 selector 是否匹配到 Pod
kubectl get pods -n <namespace> --show-labels

# 2. 确认 Pod 的 Ready 状态
kubectl get pods -n <namespace> -o wide
# 关注 Ready 列：应该是 1/1、2/2 等

# 3. 查看 Pod 的 readinessProbe 配置
kubectl get pod <pod-name> -n <namespace> \
  -o jsonpath='{.spec.containers[*].readinessProbe}'

readinessProbe 配置错误的常见场景：HTTP 路径返回 404，但应用实际路径不同。

3.3 从集群内部测试访问 Service

# 创建临时测试 Pod
kubectl run -n <namespace> testpod --image=busybox:1.36 \
  --restart=Never -it --rm -- sh

# 在 Pod 内部执行：
# 1. DNS 解析测试
nslookup <service-name>
# 正常输出：Name: <service-name>  Address: <ClusterIP>

# 2. 通过 Service IP 访问
wget -qO- http://<ClusterIP>:<port>/healthz

# 3. 通过 DNS 名称访问
wget -qO- http://<service-name>.<namespace>.svc.cluster.local:<port>/healthz

DNS 名称能解析但连接超时 → kube-proxy 没有正确转发流量。 Connection refused → 容器内端口没监听或 targetPort 配置错误。

3.4 测试 NodePort 类型 Service

# 查看 NodePort
kubectl get svc <service-name> -n <namespace> | grep NodePort

# 从集群外部测试
curl -v http://<任意节点IP>:<NodePort>/<path>

# 如果某个节点能访问、另一个不能 → 检查不能访问节点上的 kube-proxy

第四步：排查 kube-proxy 层

kube-proxy 运行在每个节点上，监听 Service 和 Endpoints 的变化，动态更新本地的 iptables 或 ipvs 规则。

4.1 检查 kube-proxy 是否运行

# kube-proxy 以 DaemonSet 形式运行
kubectl get pods -n kube-system -l k8s-app=kube-proxy

# 查看日志
kubectl logs -n kube-system -l k8s-app=kube-proxy --tail=50

4.2 检查 kube-proxy 的转发模式

# 查看 kube-proxy 的启动参数
kubectl get configmap -n kube-system kube-proxy -o yaml | grep mode

iptables 模式：默认，性能稍差，但稳定
ipvs 模式：性能更好，但配置复杂，某些内核版本支持不好

4.3 iptables 模式排查

# SSH 到节点查看 iptables 规则
# 1. 查看 NAT 表中关于某个 Service 的规则
ssh <node> "sudo iptables -t nat -L -n | grep <service-name>"

# 输出示例：
# KUBE-SVC-XXXXXXXX tcp -- anywhere 10.109.12.34 tcp dpt:80
# KUBE-SEP-XXXXXXXX tcp -- anywhere 10.244.1.15 tcp dpt:8080

# 2. 查看 KUBE-SERVICES 链
ssh <node> "sudo iptables -t nat -L KUBE-SERVICES -n | grep <service-name>"

# 3. 查看 FORWARD 链
ssh <node> "sudo iptables -t filter -L FORWARD -n | grep KUBE"

如果没有 KUBE-SVC/KUBE-SEP 规则 → kube-proxy 没有为这个 Service 生成规则。

4.4 ipvs 模式排查

# 查看 ipvs 规则
ssh <node> "sudo ipvsadm -L -n"
# 正常输出：
# TCP  <ServiceIP>:80 rr
#   -> <EndpointIP>:8081 Masq 1 0 0

# 检查 ipvs 模块是否加载
ssh <node> "lsmod | grep ip_vs"

如果 ipvsadm 没有安装或 ip_vs 模块未加载，kube-proxy 会回退到 iptables。

4.5 kube-proxy 日志分析

kubectl logs -n kube-system -l k8s-app=kube-proxy | grep -i error
# 常见错误：
# - "Failed to delete service" - 删除 Service 时清理规则失败
# - "Failed to sync iptables" - 同步规则失败，可能是权限问题
# - "ipvs struct not found" - ipvs 模式下连接状态异常

第五步：排查 CNI 插件层

CNI 插件选型与底层技术对比参见 cni-comparison（Flannel vs Calico vs Cilium 深度对比）。

CNI 负责 Pod IP 分配和 Pod 之间的网络连通性。如果 Service 层和 kube-proxy 都正常，但 Pod 之间还是不通，问题可能在 CNI 层。

5.1 确认 Pod 网络是否正常

# 在 Pod 内测试到另一个 Pod 的连通性
kubectl exec -it <pod-name> -n <namespace> -- /bin/sh
ping -c 3 <另一个Pod的IP>
# 查看默认网关
ip route

如果 ping 不通：确认两边的 Pod 是否在同一个网段；确认 CNI 插件创建的接口是否存在。

5.2 常见 CNI 插件排查

Flannel 排查：

# 查看 flannel 是否为所有节点创建了网络
kubectl get pods -n kube-system -l app=flannel

# 在节点上查看 flannel.1 接口
ip addr show flannel.1

# 查看网络范围（Pod CIDR）
kubectl get cm -n kube-system kube-flannel-cfg -o yaml | grep -A 3 "net-conf.json"

典型问题：flannel.1 没有 UP → 该节点的 CNI 网络没有正常初始化。

Calico 排查：

# 查看 calico-node 是否 Running
kubectl get pods -n kube-system -l k8s-app=calico-node

# 查看日志
kubectl logs -n kube-system -l k8s-app=calico-node --tail=100

# 查看 IP 池（需要 calicoctl）
calicoctl get ippool -o wide
calicoctl get workloadendpoints -o wide

5.3 跨节点 Pod 通信测试

# 获取两个不同节点上 Pod 的 IP
kubectl get pods -o wide --all-namespaces | grep Running

# 测试跨节点连通性
kubectl exec -it <源Pod> -n <namespace> -- ping -c 5 <目标PodIP>

# 测试特定端口
kubectl exec -it <源Pod> -n <namespace> -- nc -zv <目标PodIP> <端口>

同节点 Pod 通信正常，跨节点不通 → 检查源节点到目标节点的路由、CNI 隧道（flannel VXLAN/Calico BGP）、防火墙规则（flannel UDP 8472/Calico IP-in-IP 4）。

第六步：排查 Ingress 层

6.1 确认 Ingress Controller 正常运行

# Ingress Controller 通常部署在 kube-system
kubectl get pods -n kube-system | grep -E "ingress|nginx"

# 查看日志
kubectl logs -n kube-system <ingress-controller-pod-name> -f --tail=100

6.2 查看 Ingress 规则配置

# 查看所有 Ingress 资源
kubectl get ingress -A

# 查看具体配置
kubectl get ingress <ingress-name> -n <namespace> -o yaml
# 重点检查：spec.rules（Host/Path）、spec.tls（HTTPS）、spec.backend（默认后端）

6.3 确认 Ingress 和 Service 的关联

# 检查 backend.service.name 是否和目标 Service 名称一致
kubectl get ingress <ingress-name> -n <namespace> \
  -o jsonpath='{.spec.rules[*].http.paths[*].backend.service}'

# 检查端口是否一致
kubectl get ingress <ingress-name> -n <namespace> \
  -o jsonpath='{.spec.rules[*].http.paths[*].backend.service.port}'

6.4 Ingress 日志分析

# 搜索 502 / 503 / 504 错误
kubectl logs -n kube-system <ingress-controller-pod-name> | grep " 502 \| 503 \| 504 "
# 搜索特定 Host 的访问
kubectl logs -n kube-system <ingress-controller-pod-name> | grep "Host: <domain>"

如果没有日志输出 → 请求根本没到 Ingress Controller，检查 DNS 解析、LB 配置、NodePort。

6.5 逐层排查 Ingress 流量路径

层级一：外部 → DNS 解析 → Ingress Controller 的外部 IP/NodePort
层级二：Ingress Controller → Ingress 规则匹配 → Backend Service
层级三：Backend Service → kube-proxy → Endpoint → Pod

层级一：确认外部能访问到 Ingress Controller

# 获取 Ingress Controller 的 NodePort 或 LoadBalancer IP
kubectl get svc -n kube-system | grep -E "ingress|nginx"

# 测试从外部直接访问 NodePort（绕过 DNS）
curl -v http://<任意节点IP>:<NodePort>/<path>
# NodePort 能访问但域名不行 → DNS 解析问题

层级二：确认 Ingress 规则被正确加载

# 查看 nginx.conf
kubectl exec -n kube-system <ingress-controller-pod> -- cat /etc/nginx/nginx.conf
# 搜索对应的 server {} 块
kubectl exec -n kube-system <ingress-controller-pod> -- grep -A 20 "server_name <domain>"
# 确认 upstream {} 中的 server 列表包含正确 Endpoint IP
kubectl exec -n kube-system <ingress-controller-pod> -- grep -A 10 "upstream <backend-service>"

6.6 TLS/HTTPS 相关问题

# 查看 TLS 配置
kubectl get ingress <ingress-name> -n <namespace> -o yaml | grep -A 10 tls

# 常见 TLS 问题：
# 1. Secret 不存在
kubectl get secret <secret-name> -n <namespace>
# 2. Secret 类型不是 kubernetes.io/tls
# 3. 证书过期（Let's Encrypt 有效期 90 天）
# 4. 证书和域名不匹配

# 测试 HTTPS（跳过证书验证排查连接问题）
curl -v https://<domain>/<path> --insecure
# --insecure 能通 → 证书配置问题

第七步：排查 DNS 解析问题

DNS 问题是导致"服务访问不通"的重灾区。Pod 访问 Service 通过 DNS 名称，如果 DNS 解析失败，所有依赖 Service 名称的调用都会失败。

7.1 测试 DNS 解析

# 在 Pod 内测试
kubectl exec -it <pod-name> -n <namespace> -- nslookup kubernetes.default
kubectl exec -it <pod-name> -n <namespace> -- nslookup <service-name>.<namespace>.svc.cluster.local

# 如果 nslookup 不存在，用 dig
kubectl exec -it <pod-name> -n <namespace> -- dig +short kubernetes.default.svc.cluster.local

# 用 getent 测试
kubectl exec -it <pod-name> -n <namespace> -- getent hosts <service-name>.<namespace>.svc.cluster.local

7.2 查看 CoreDNS 状态

# CoreDNS 以 Deployment 运行在 kube-system
kubectl get pods -n kube-system -l k8s-app=kube-dns

# 查看日志
kubectl logs -n kube-system -l k8s-app=kube-dns --tail=100

# 查看配置
kubectl get configmap -n kube-system coredns -o yaml

7.3 DNS 解析慢的常见原因

DNS 查询并发限制：Linux 内核对每个进程/容器的 DNS 并发查询有限制
ndots 配置过高：K8s 默认 ndots=5，任何带 5 个以下点的名称都会先查集群 DNS 再查外部 DNS

优化 ndots 配置：

spec:
  dnsConfig:
    options:
      - name: ndots
        value: "2"           # 默认 5，改成 2 减少集群 DNS 查询
      - name: timeout
        value: "2"
      - name: attempts
        value: "2"

第八步：排查 NetworkPolicy

NetworkPolicy 问题隐蔽性最强，排查到最后才考虑。

8.1 查看命名空间的 NetworkPolicy

# 查看是否应用了 NetworkPolicy
kubectl get networkpolicy -n <namespace>

# 查看具体规则
kubectl get networkpolicy <policy-name> -n <namespace> -o yaml

8.2 临时测试：放行所有流量

# 如果确认是 NetworkPolicy 问题，临时放行验证
kubectl apply -f - <<'EOF'
apiVersion: networking.k8s.io/v1
kind: NetworkPolicy
metadata:
  name: allow-all
  namespace: <namespace>
spec:
  podSelector: {}
  ingress:
    - {}
EOF

第九步：综合故障案例

案例一：Service 有 Endpoint 但返回 502

现象： Service 的 Endpoints 列表正常（有 IP 有端口），但通过 Ingress 访问返回 502。

排查过程：

kubectl get svc my-service -n default → Endpoints 数量和 Pod 数量一致 ✅
从 Pod 内直接访问 Service（绕过 Ingress）→ 能正常返回 ✅
通过 Ingress 访问返回 502 ❌
查看 Ingress Controller 日志 → "upstream timed out (110: Connection timed out)"
根因： 应用的重试机制导致请求携带无效的 Host 头，Ingress Controller 的 upstream server_name 和请求头中的 Host 不匹配

修复： 调整 Ingress 的 host 字段或应用的 Host 头。

案例二：Pod 之间通过 Headless Service 无法互相发现

现象： 部署了 MySQL 主从使用 Headless Service，但 Pod 之间无法通过 DNS 互相发现。

排查过程：

确认 Headless Service 配置：clusterIP: None ✅
DNS 记录为空 nslookup mysql-headless.database.svc.cluster.local ❌
根因： StatefulSet 的 serviceName 和 Headless Service 名称不一致

修复： StatefulSet 的 serviceName 必须和 Headless Service 名称完全一致，否则 Pod 的 DNS 记录不会生成。

# 检查 StatefulSet 的 serviceName
kubectl get statefulset mysql -n database \
  -o jsonpath='{.spec.serviceName}'

第十步：预防措施

10.1 服务可达性巡检脚本

#!/bin/bash
# k8s_service_health_check.sh
NAMESPACES=$(kubectl get ns -o jsonpath='{.items[*].metadata.name}' | tr ' ' '\n' | grep -v kube-system)
for NS in $NAMESPACES; do
  SERVICES=$(kubectl get svc -n $NS -o json | jq -r '.items[] | select(.spec.clusterIP != "None") | select(.spec.clusterIP != "") | .metadata.name')
  for SVC in $SERVICES; do
    EP_COUNT=$(kubectl get endpoints $SVC -n $NS -o json | jq '.subsets | length')
    if [ "$EP_COUNT" == "0" ] || [ "$EP_COUNT" == "null" ]; then
      echo "[ALERT] Service $SVC in namespace $NS has NO endpoints"
    fi
  done
done
echo "巡检完成"

10.2 Ingress 和 Service 关联性校验

#!/bin/bash
for INGRESS in $(kubectl get ingress -A -o jsonpath='{.items[*].metadata.name}'); do
  NS=$(kubectl get ingress $INGRESS -A -o jsonpath='{.items[0].metadata.namespace}')
  SVC=$(kubectl get ingress $INGRESS -n $NS -o jsonpath='{.spec.rules[0].http.paths[0].backend.service.name}')
  EP_COUNT=$(kubectl get endpoints $SVC -n $NS -o json 2>/dev/null | jq '.subsets | map(.addresses) | flatten | length')
  if [ "$EP_COUNT" == "0" ] || [ "$EP_COUNT" == "null" ]; then
    echo "[WARNING] Ingress $INGRESS → Service $SVC has NO endpoints!"
  fi
done

10.3 Pod readinessProbe 配置规范

Spring Boot 应用：

readinessProbe:
  httpGet:
    path: /actuator/health/readiness
    port: 8080
  initialDelaySeconds: 30
  periodSeconds: 10
  timeoutSeconds: 5
  successThreshold: 1
  failureThreshold: 3

Golang 应用：

readinessProbe:
  tcpSocket:
    port: 8080
  initialDelaySeconds: 5
  periodSeconds: 10
  failureThreshold: 3

排查顺序口诀

先 Pod 再 Svc，EP 不为空则网络通；
Ingress 有问题先看日志，DNS 不通查 CoreDNS。

关联页面

页面	关联点
container-networking-troubleshooting	容器网络 6 层排障模型（Service 网络是第 ⑥ 层）
k8s-rolling-update-pitfalls	滚动更新中的连接排空与流量治理
k8s-probes-guide	探针配置与流量接入
pod-troubleshooting	Pod 排障：CrashLoopBackOff/Exit Code/探针/依赖服务
k8s-coredns-custom-domain-resolution	CoreDNS 自定义域名解析（DNS 是服务访问十步排查的第一步）
k8s-dns-iptables-troubleshooting	K8s DNS 故障真实案例复盘：iptables 封禁 53 端口导致 CoreDNS 雪崩，完整
network-basics-ip-subnet-gateway	网络基础全掌握：IP地址/CIDR子网划分/网关路由/VLAN/防火墙/Docker-K8s网络，附
k8s-iptables-ipvs-switch-guide	Kubernetes kube-proxy 模式选型与切换：iptables vs IPVS 原理对
k8s-dns-conntrack-5s-timeout	K8s DNS 间歇性5s解析超时排查——conntrack 竞态 + ndots 放大
k8s-hairpin-troubleshooting	K8s Hairpin 发夹回流故障—Pod 可通全网但无法访问自身 Service 的原因、排查与
k8s-load-balancing-deep-practice	K8s 负载均衡深度实践（Service 数据面/kube-proxy 模式/conntrack 高并发治理）