运维/SRE 行话速查指南:懂了这些,排障都能挺直腰板
来源:运维技术圈 | 发布日期:2026-05-21
流量与架构
南北流量 vs 东西流量
| 术语 | 大白话 | 正经解释 | 运维场景 |
|---|---|---|---|
| 南北流量 | 进出城的外来务工人员 | 客户端与服务器之间的流量。架构图中客户端(北)→ 服务器(南) | 用户反馈"网站打不开",排查负载均衡器、API 网关、防火墙 |
| 东西流量 | 村里人互相串门 | 数据中心内部、微服务之间、Pod 之间的通信 | 前端正常但下单超时,多半是内部服务节点卡住了 |
控制面 vs 数据面
| 概念 | 类比 | 说明 | 排障方向 |
|---|---|---|---|
| 控制面 | 交警队 | 下发规则、配置和路由策略(Service Mesh / K8s) | 服务通但配置不生效 → 控制面故障 |
| 数据面 | 马路 | 实际运送业务数据包 | 服务完全不通 → 数据面挂了 |
监控与排障
APM(应用性能管理): 深入到代码运行时的方法调用耗时、SQL 执行时间、JVM/GC 状态。实战场景——研发说"代码没问题,是网络卡",甩出 APM 截图:"这个 SQL 查了 5 秒,网络只花 2 毫秒"。
可观测性三大支柱:
| 支柱 | 解决的问题 | 常见工具 |
|---|---|---|
| Metrics(指标) | 出没出事(CPU 90%) | Prometheus, Zabbix |
| Logs(日志) | 出了什么事 | ELK, Loki |
| Traces(链路) | 事情在哪一步卡住了 | Jaeger, SkyWalking |
监控告诉你"系统挂了",可观测性告诉你"系统为什么挂"。
全链路追踪: 给请求打上唯一的 TraceID,串联 A→B→C→D 调用链路。排查卡顿看瀑布图——哪根柱子最长就去揪哪个服务。
SRE 稳定性
SLA / SLO / SLI
| 缩写 | 含义 | 类比 |
|---|---|---|
| SLI | 服务级别指标(如 HTTP 200 比例) | 计分器 |
| SLO | 服务级别目标(如 99.9% 在 200ms 内) | 及格线 |
| SLA | 服务级别协议(含商业惩罚条款) | 军令状 |
运维内部只谈 SLO,带上商务合同才谈 SLA。
熔断 vs 降级: 熔断是下游大面积超时时主动切断调用防止雪崩;降级是大促时关掉边缘功能(猜你喜欢、评论展示),资源让给核心交易链路。
混沌工程: 在生产环境故意注入故障(随机杀 Pod、掐网线),验证高可用架构。Netflix 的"混乱猴子"是鼻祖。
发布与部署
| 模式 | 大白话 | 说明 |
|---|---|---|
| 灰度/金丝雀发布 | 先让 5% 用户当小白鼠 | 逐步放大流量(5%→10%→50%→100%),指标稳了再全量 |
| 蓝绿部署 | 备胎转正 | 两套环境,切流量瞬间完成,回滚一秒级(代价:双倍资源) |
云原生概念
Sidecar: Pod 内配辅助容器,负责日志收集、流量代理、监控上报——不改业务代码。
IaC(基础设施即代码): Terraform/Ansible 定义服务器和网络,Git 版本控制,谁改了什么一查便知。
故障术语
| 术语 | 大白话 | 运维场景 |
|---|---|---|
| 惊群效应 | 撒一把玉米,鸽子扑上来撞翻人 | 热点 Key 缓存过期 → 千万并发砸向数据库。解法:过期时间加随机数 |
| 幂等性 | 狂点付款也只能扣一次钱 | 网络抖动重试时,执行 N 次 = 执行 1 次,否则重复扣款 = P0 事故 |
| OOM | 内存被吃干抹净,系统掀桌子 | Reason: OOMKilled → 内存泄漏,截图甩给研发 |
不管是南北流量还是东西流量,系统不报警就是好流量。
关联页面
| 页面 | 关联点 |
|---|---|
| devops-interview-guide | DevOps 技术面试指南 |
| fullstack-performance-troubleshooting | 全栈性能排障 |
| high-concurrency-four-strategies | 高并发四大手段(熔断/降级/幂等) |
| jvm-container-oom-offheap-troubleshooting | JVM 堆外内存 OOM 排障 |
| container-networking-troubleshooting | 容器网络排障 |
| k8s-architecture-core-concepts | K8s 架构核心概念(控制面/数据面) |