返回首页

运维/SRE 行话速查指南:懂了这些,排障都能挺直腰板

📅 创建于 2026-06-04 🔄 更新于 2026-06-04 📝 309 字

运维/SRE 行话速查指南:懂了这些,排障都能挺直腰板

来源:运维技术圈 | 发布日期:2026-05-21

流量与架构

南北流量 vs 东西流量

术语 大白话 正经解释 运维场景
南北流量 进出城的外来务工人员 客户端与服务器之间的流量。架构图中客户端(北)→ 服务器(南) 用户反馈"网站打不开",排查负载均衡器、API 网关、防火墙
东西流量 村里人互相串门 数据中心内部、微服务之间、Pod 之间的通信 前端正常但下单超时,多半是内部服务节点卡住了

控制面 vs 数据面

概念 类比 说明 排障方向
控制面 交警队 下发规则、配置和路由策略(Service Mesh / K8s) 服务通但配置不生效 → 控制面故障
数据面 马路 实际运送业务数据包 服务完全不通 → 数据面挂了

监控与排障

APM(应用性能管理): 深入到代码运行时的方法调用耗时、SQL 执行时间、JVM/GC 状态。实战场景——研发说"代码没问题,是网络卡",甩出 APM 截图:"这个 SQL 查了 5 秒,网络只花 2 毫秒"。

可观测性三大支柱:

支柱 解决的问题 常见工具
Metrics(指标) 出没出事(CPU 90%) Prometheus, Zabbix
Logs(日志) 出了什么事 ELK, Loki
Traces(链路) 事情在哪一步卡住了 Jaeger, SkyWalking

监控告诉你"系统挂了",可观测性告诉你"系统为什么挂"。

全链路追踪: 给请求打上唯一的 TraceID,串联 A→B→C→D 调用链路。排查卡顿看瀑布图——哪根柱子最长就去揪哪个服务。

SRE 稳定性

SLA / SLO / SLI

缩写 含义 类比
SLI 服务级别指标(如 HTTP 200 比例) 计分器
SLO 服务级别目标(如 99.9% 在 200ms 内) 及格线
SLA 服务级别协议(含商业惩罚条款) 军令状

运维内部只谈 SLO,带上商务合同才谈 SLA。

熔断 vs 降级: 熔断是下游大面积超时时主动切断调用防止雪崩;降级是大促时关掉边缘功能(猜你喜欢、评论展示),资源让给核心交易链路。

混沌工程: 在生产环境故意注入故障(随机杀 Pod、掐网线),验证高可用架构。Netflix 的"混乱猴子"是鼻祖。

发布与部署

模式 大白话 说明
灰度/金丝雀发布 先让 5% 用户当小白鼠 逐步放大流量(5%→10%→50%→100%),指标稳了再全量
蓝绿部署 备胎转正 两套环境,切流量瞬间完成,回滚一秒级(代价:双倍资源)

云原生概念

Sidecar: Pod 内配辅助容器,负责日志收集、流量代理、监控上报——不改业务代码。

IaC(基础设施即代码): Terraform/Ansible 定义服务器和网络,Git 版本控制,谁改了什么一查便知。

故障术语

术语 大白话 运维场景
惊群效应 撒一把玉米,鸽子扑上来撞翻人 热点 Key 缓存过期 → 千万并发砸向数据库。解法:过期时间加随机数
幂等性 狂点付款也只能扣一次钱 网络抖动重试时,执行 N 次 = 执行 1 次,否则重复扣款 = P0 事故
OOM 内存被吃干抹净,系统掀桌子 Reason: OOMKilled → 内存泄漏,截图甩给研发

不管是南北流量还是东西流量,系统不报警就是好流量。


关联页面

页面关联点
devops-interview-guideDevOps 技术面试指南
fullstack-performance-troubleshooting全栈性能排障
high-concurrency-four-strategies高并发四大手段(熔断/降级/幂等)
jvm-container-oom-offheap-troubleshootingJVM 堆外内存 OOM 排障
container-networking-troubleshooting容器网络排障
k8s-architecture-core-conceptsK8s 架构核心概念(控制面/数据面)