搜索: service

K8s Hairpin 发夹回流故障—Pod 无法访问自身 Service 深度解析

标题匹配

title: K8s Hairpin 发夹回流故障—Pod 无法访问自身 Service 深度解析

sources: [raw/articles/Kubernetes-隐蔽网络故障-Pod-可通全网-无法访问自身-Service-问题深度解析.md]

# K8s Hairpin 发夹回流故障—Pod 无法访问自身 Service 深度解析

Kubernetes 中一个极度隐蔽的网络问题——**Pod 内部能通 localhost 和自身 PodIP，但访问自身 ServiceIP 却百分百超时**。所有上层组件（kube-proxy、CoreDNS、Endpoint）全部正常。

| `curl ServiceIP:8080` | ❌ 超时 | 经过 kube-proxy NAT 后经 Bridge 回流，被内核静默丢包 |

Kubernetes 负载均衡深度实践：Service 数据面到生产级流量治理全链路

标题匹配

title: Kubernetes 负载均衡深度实践：Service 数据面到生产级流量治理全链路

sources: [raw/articles/raw_Kubernetes-负载均衡深度实践-从-Service-数据面到生产级流量治理全链路拆解.md]

# Kubernetes 负载均衡深度实践：Service 数据面到生产级流量治理全链路

> 关键词：Kubernetes、Service、Ingress、IPVS、eBPF、Service Mesh、conntrack、高并发、流量治理

Kubernetes 负载均衡不是单点能力，而是一条跨越控制面、节点网络、代理层、应用层的协同链路。本文从数据面出发，系统梳理从 Service 到生产级流量治理的全链路方案。

K8s 服务访问排查 — 从 Pod、Service 到 Ingress 十步工作流

标题匹配

title: K8s 服务访问排查 — 从 Pod、Service 到 Ingress 十步工作流

tags: [kubernetes, troubleshooting, service, pod, ingress, networking, cni, dns]

sources: [raw/articles/k8s-service-access-troubleshooting.md, raw/articles/cni-comparison-flannel-calico-cilium.md]

# K8s 服务访问排查 — 从 Pod、Service 到 Ingress 十步工作流

### 场景一：集群内部 Pod 访问 Service（最常见）

Service 与网络排障 — Endpoints / DNS / kube-proxy / CNI / NetworkPolicy / Ingress

标题匹配

title: Service 与网络排障 — Endpoints / DNS / kube-proxy / CNI / NetworkPolicy / Ingress

tags: [kubernetes, troubleshooting, service, networking, ingress, cni, dns]

- raw/articles/k8s-service-access-troubleshooting.md

# Service 与网络排障

**现象:** Service 存在但 Endpoints 为空，访问连接失败。

容器网络排障 6 层模型 — K8s/Docker/containerd 统一排查体系

| ⑥ 集群与策略层（K8s） | CNI/kube-proxy/NetworkPolicy/Service/Endpoint 一致？ | `kubectl get pod,svc,ep -A`, `kubectl get netpol -A` |

2. **Service 与 Endpoint** — `kubectl get svc,ep -A` → 看 CLUSTER-IP / PORT(S) / ENDPOINTS 是否为空

**K8s + CNI 常见断点：** Pod IP 分配失败、Service → Endpoint 映射不一致、NetworkPolicy 默认拒绝

| Service 不通但 Pod IP 直连可通 | `kubectl get svc,ep` 看 ENDPOINTS | Selector/TargetPort 不匹配 / kube-proxy 异常 |

| [[k8s-service-access-troubleshooting]] | K8s Service/Ingress 网络排障十步工作流（6 层模型第 ⑥ 层深入） |

Jenkins 多 Master 架构部署方案 — K8S + Gateway API

- **Service**（集群内访问）

> ⚠️ 如果有多个 Master 共享同一命名空间，Service 命名冲突、RBAC 权限交叉、资源配额互相影响等问题会逐渐暴露。

serviceName: jenkins-master-svc

### 4.3 Headless Service（用于 Agent 连接）

kind: Service

K8s 架构与核心概念深度解析 — 面试通关秘籍（一）

tags: [kubernetes, architecture, deployment, pod, service, statefulset, networking, storage]

| **Kube-proxy** | 网络代理，维护节点上的网络规则（iptables/ipvs），实现 Service 负载均衡 |

### Service — 服务发现与负载均衡

**Service 如何找到 Pod：**

Service (selector: app=nginx)

Kubernetes CoreDNS 自定义域名解析 — 五种场景从原理到生产实操

## 二、场景二：Rewrite Service 别名

- ⚠️ rewrite 只改查询名，**不保证网络可达** — Service 端口、NetworkPolicy、后端 Pod 健康需单独确认

> 排障参考：[[k8s-service-access-troubleshooting]]（DNS 是十步工作流的关键环节）

- [[k8s-service-access-troubleshooting]] — K8s 服务访问十步排查（DNS 是第一步）

- [[service-troubleshooting]] — Service 与网络排障（CoreDNS/kube-proxy 联动）

K8s 面试通关指南 — 100 道核心题全解析

| 18 | 什么是 ServiceAccount？ | 为 Pod 提供访问 API 的身份，与 RBAC 配合控制权限 | — |

Kubernetes kube-proxy 模式选型与切换：iptables vs IPVS

## 问题场景：Service 多了就卡

集群里 Service 数量一多，Pod 访问其他 Service 的延迟开始飘，P99 响应时间从 75ms 飙到 550ms，超时失败率冲到 18%。节点 CPU、内存、数据库连接池一切正常——问题可能出在 kube-proxy 的转发模式上。

kube-proxy 在每个 Service 的 NAT prerouting 链上插入一条规则，数据包需逐个遍历 `KUBE-SERVICES` 链上的规则。规则数量与 Service 数 + Endpoint 总数成正比——2000 个 Service 时，内核可能连查 2000 次才能决定包的去向。**复杂度 O(n)。**

IPVS（IP Virtual Server）是 Linux 内核的四层负载均衡模块，通过 netlink 接口直接创建虚拟服务与后端 RS，数据面使用哈希表。**复杂度 O(1)**——Service 从 500 涨到 5000，内核处理第一个包的时间基本持平。

> IPVS 下的 SNAT、包过滤等辅助功能仍用到少量 iptables 和 ipset 规则，但数量是常数级，不随 Service 线性增长。

K8s 多集群 + Istio 灰度发布 — 全球多活流量治理生产指南

VirtualService + DestinationRule + Sidecar — 版本拆分、请求级路由、局部故障隔离、超时与重试、跨集群故障转移。

name: order-service

host: order-service.trade.svc.cluster.local

### VirtualService — 定向灰度 + 权重放量

kind: VirtualService

K8s 滚动更新无损发布误区 — RollingUpdate 真相与真正无感发布体系

**支撑工具：** Istio / Linkerd（Service Mesh）、Argo Rollouts、Flagger、Nginx Ingress Canary

Ingress、SLB、Service Mesh（如 Istio）必须配置连接排空，等待旧 Pod 上的连接自然结束后再删除 Pod。否则旧 Pod 已退出但 LB 还在转发流量 → 502 报错。

K8s Service 层面：Readiness Gate + terminationGracePeriodSeconds 配合。

| [[k8s-service-access-troubleshooting]] | 连接排空与流量治理 |

| [[service-troubleshooting]] | Service Endpoints 与滚动更新的关系 |

StatefulSet 完全指南 — 稳定网络标识 / 独立存储 / 有序部署

| 网络标识 | 通过 Service 负载均衡访问 | 每个 Pod 有固定 DNS 名称 |

**必须搭配 Headless Service（`clusterIP: None`）使用：**

kind: Service

Headless Service 不做负载均衡，DNS 查询 `my-headless-svc` 返回所有 Ready Pod 的 IP 列表。

可通过 `pod-name.service-name.namespace.svc.cluster.local` 直接访问特定 Pod。

K8s 高频问题一站式排查清单 — 10 大故障场景快速参考

tags: [kubernetes, troubleshooting, production, debugging, pod, node, service, storage, networking, security]

## 问题三：Service 访问失败

> 🔙 **回滚：** 如果是新 Service 配置导致的，检查 Annotation 和 Service Type。

📖 深度排查 → [[service-troubleshooting]] | [[k8s-service-access-troubleshooting]]

| 直连测试 | `telnet 53` | 绕过 DNS 直联 Service IP |

K8s 生产排障基本原则与快速定位流程

- raw/articles/k8s-service-access-troubleshooting.md

- Service 的 Endpoints 是否有关联的 Pod IP

- 从 Pod 内直接访问 Service IP（绕过 Ingress 和 NodePort）

| [[k8s-service-access-troubleshooting]] | 从 Pod→Service→Ingress 十步排查工作流 |

| [[service-troubleshooting]] | Service 与网络排障（含 kube-proxy/CNI） |

Pod 排障 — CrashLoopBackOff / Exit Code 排查 / OOM / 探针 / 依赖服务 / ConfigMap

- raw/articles/k8s-service-access-troubleshooting.md

- **依赖不可达:** 检查依赖 Service 的 Endpoints 是否存在

- **认证失败:** 创建/更新 Secret → 关联到 Deployment 或 ServiceAccount

# localhost 能通但通过 Service 不通 → 问题在 Service 层

| [[k8s-service-access-troubleshooting]] | 从 Pod→Service→Ingress 十步排查工作流 |

Linux 服务器挖矿病毒排查与清除实战指南

cat /etc/systemd/system/kinsing.service

rm -f /etc/systemd/system/kinsing.service

firewall-cmd --add-service=ssh --permanent

firewall-cmd --add-service=http --permanent

firewall-cmd --add-service=https --permanent

Wiki Log

- Created concepts: k8s-troubleshooting-principles, pod-troubleshooting, node-troubleshooting, service-troubleshooting, storage-troubleshooting, resource-rbac-scheduling-troubleshooting

- 新增标签分类：microservices, service-discovery, nacos, zookeeper, consul

- Created raw: raw/articles/k8s-service-access-troubleshooting.md

- Created concepts: k8s-service-access-troubleshooting

- Updated: service-troubleshooting, pod-troubleshooting, k8s-troubleshooting-principles

Wiki Schema

├── kubernetes/ # K8s 集群、Pod、Service、存储、调度

- service: Service/网络

- microservices: 微服务架构

- service-discovery: 服务发现

DevOps 技术面试指南 — 容器/云原生/内核 59 题

| 6 | Prometheus 监控 K8s？ | Prometheus Operator + ServiceMonitor + Node Exporter + kube-state-metrics + 告警规则 | — |

| 42 | Service Mesh 高级特性？ | 流量管理(A/B/蓝绿/金丝雀) + 熔断限流 + mTLS + 分布式追踪 + 策略执行 |

| [[k8s-load-balancing-deep-practice]] | K8s 负载均衡深度实践（Service 数据面/高并发流量治理/面试核心考点） |

Wiki Index

- [[k8s-hairpin-troubleshooting]] — K8s Hairpin 发夹回流故障—Pod 可通全网但无法访问自身 Service 的原因、排查与修复

- [[k8s-load-balancing-deep-practice]] — Kubernetes 负载均衡深度实践：Service 数据面到生产级流量治理全链路（kube-proxy/IPVS/eBPF/Ingress/Service Mesh/conntrack）

- [[k8s-service-access-troubleshooting]] — K8s 服务访问排查十步工作流：Pod→Service→kube-proxy→CNI→Ingress→DNS→NetworkPolicy

- [[service-troubleshooting]] — Service 与网络排障：Endpoints / DNS / kube-proxy / CNI / NetworkPolicy / Ingress

CNI 网络插件深度对比 — Flannel vs Calico vs Cilium

2. **已有 Service 会短暂中断**：因为 kube-proxy 依赖的底层规则会变化

- [[service-troubleshooting]] — CNI 排查实战（Flannel 接口/Calico Pod 状态/BGP 路由检查）

- [[k8s-service-access-troubleshooting]] — 服务访问十步工作流中 CNI 为关键排查步骤

注册中心选型 — Nacos / Zookeeper / Consul 深度对比

tags: [microservices, service-discovery, nacos, zookeeper, consul, production]

- [[k8s-service-access-troubleshooting]] — K8s 服务访问排查十步工作流（含服务发现与 DNS 排障）

- [[k8s-architecture-core-concepts]] — K8s 架构与核心概念（Service/Endpoints 与服务发现机制）

运维自动化脚本 5 件套 — 健康巡检/日志告警/MySQL备份/批量执行/服务守护

SERVICES="nginx php-fpm mysql"

for svc in $SERVICES; do

配合 `* * * * * /opt/scripts/service_guard.sh` 每分钟检查一次。

K8s DNS 故障排查实战：iptables 封禁 53 端口引发的 DNS 雪崩

- **症状**：3 台节点报 `Connection refused` 和 `dial tcp: lookup service-order on 10.96.0.10:53: no such host`

nslookup service-order.default.svc.cluster.local

| [[k8s-service-access-troubleshooting]] | K8s 服务访问排障 |

Node 排障 — NotReady 九步排查 / Kubelet / 容器运行时 / 资源压力 / 证书 / 预防

# 编辑 /usr/lib/systemd/system/kubelet.service.d/10-kubeadm.conf

| [[k8s-service-access-troubleshooting]] | 服务访问排查（Pod 排障前置条件） |

| [[service-troubleshooting]] | Service 排障（节点恢复后的网络排查） |

资源配额 / OOMKilled / RBAC / 调度排障

--as=system:serviceaccount::

# 检查 ServiceAccount

**修复：** 创建正确的 Role + RoleBinding 并关联到 ServiceAccount。

Java 应用 CPU 100% 排查实战 — 从告警到代码行的四步法

> 以面试场景切入，记录一次 order-service 生产环境 CPU 100% 的完整排查过程。

at com.order.service.PriceCalculator.calculateDiscount(PriceCalculator.java:87)

凌晨 2 点告警，order-service 两个节点 CPU 100%。

Linux 四大防火墙对比与实战 — iptables/nftables/firewalld/ufw 配置总结

service iptables save # CentOS6

firewall-cmd --zone=public --add-service=http --permanent

firewall-cmd --zone=public --add-service=https --permanent

搜索结果: "service"