运维/SRE 行话速查指南：懂了这些，排障都能挺直腰板

📅 创建于 2026-06-04 🔄 更新于 2026-06-04 📝 309 字

architecture networking monitoring troubleshooting performance deployment devops

来源：运维技术圈 | 发布日期：2026-05-21

流量与架构

术语	大白话	正经解释	运维场景
南北流量	进出城的外来务工人员	客户端与服务器之间的流量。架构图中客户端（北）→ 服务器（南）	用户反馈"网站打不开"，排查负载均衡器、API 网关、防火墙
东西流量	村里人互相串门	数据中心内部、微服务之间、Pod 之间的通信	前端正常但下单超时，多半是内部服务节点卡住了

概念	类比	说明	排障方向
控制面	交警队	下发规则、配置和路由策略（Service Mesh / K8s）	服务通但配置不生效 → 控制面故障
数据面	马路	实际运送业务数据包	服务完全不通 → 数据面挂了

APM（应用性能管理）： 深入到代码运行时的方法调用耗时、SQL 执行时间、JVM/GC 状态。实战场景——研发说"代码没问题，是网络卡"，甩出 APM 截图："这个 SQL 查了 5 秒，网络只花 2 毫秒"。

可观测性三大支柱：

监控告诉你"系统挂了"，可观测性告诉你"系统为什么挂"。

全链路追踪： 给请求打上唯一的 TraceID，串联 A→B→C→D 调用链路。排查卡顿看瀑布图——哪根柱子最长就去揪哪个服务。

SLA / SLO / SLI

运维内部只谈 SLO，带上商务合同才谈 SLA。

熔断 vs 降级： 熔断是下游大面积超时时主动切断调用防止雪崩；降级是大促时关掉边缘功能（猜你喜欢、评论展示），资源让给核心交易链路。

混沌工程： 在生产环境故意注入故障（随机杀 Pod、掐网线），验证高可用架构。Netflix 的"混乱猴子"是鼻祖。

模式	大白话	说明
灰度/金丝雀发布	先让 5% 用户当小白鼠	逐步放大流量（5%→10%→50%→100%），指标稳了再全量
蓝绿部署	备胎转正	两套环境，切流量瞬间完成，回滚一秒级（代价：双倍资源）

Sidecar： Pod 内配辅助容器，负责日志收集、流量代理、监控上报——不改业务代码。

IaC（基础设施即代码）： Terraform/Ansible 定义服务器和网络，Git 版本控制，谁改了什么一查便知。

术语	大白话	运维场景
惊群效应	撒一把玉米，鸽子扑上来撞翻人	热点 Key 缓存过期 → 千万并发砸向数据库。解法：过期时间加随机数
幂等性	狂点付款也只能扣一次钱	网络抖动重试时，执行 N 次 = 执行 1 次，否则重复扣款 = P0 事故
OOM	内存被吃干抹净，系统掀桌子	`Reason: OOMKilled` → 内存泄漏，截图甩给研发

不管是南北流量还是东西流量，系统不报警就是好流量。

页面	关联点
devops-interview-guide	DevOps 技术面试指南
fullstack-performance-troubleshooting	全栈性能排障
high-concurrency-four-strategies	高并发四大手段（熔断/降级/幂等）
jvm-container-oom-offheap-troubleshooting	JVM 堆外内存 OOM 排障
container-networking-troubleshooting	容器网络排障
k8s-architecture-core-concepts	K8s 架构核心概念（控制面/数据面）