很多人做网络运维都会遇到同一个困扰: 明明问题就在那,但就是查不出原因。 看日志没线索、抓包没头绪、拓扑也乱得看不清……最后排查不是靠方法,而是靠运气。
其实,大部分“没思路”的根本原因不是知识不够,而是缺少一套稳定可复用的排查框架。 这里就从实战角度,讲一套适用于 80% 网络问题的排障思路。
一、先问自己一个关键问题:症状是什么,现象是什么?很多人一开始就“直接查设备”。 但如果症状都没说清楚,方向很容易走偏。
你至少要明确下面几项:
故障范围(一个人?一个 VLAN?一个业务?全网?)
故障时间(一直如此?突然发生?偶发?)
变化记录(有没有动过配置?换过设备?)
故障表现(慢?断?卡?不稳定?)
这一步不是浪费时间,它是后续判断最重要的依据。
二、用“三层定位法”快速缩小范围网络排查最核心的一步,就是先定位故障发生在哪一层。
给你一套简单好用的三层定位:
第一层:物理层(线、光、口、供电)
80% 的“诡异问题”其实都是物理问题:
光衰过高
双绞线质量差
设备端口抖
PoE 电源不足
模块假货
快速判断: 换线、换模块、换端口,永远是最省时间的手段。
第二层:数据链路层(MAC、VLAN、STP)
这类问题常出现在:
VLAN 配错
Trunk 允许列表缺失
STP 阻塞
环路形成
MAC 表频繁抖动
如果你发现 “能 ping 网关、但上不了网”,很大概率是链路层的问题。
第三层:网络层(路由、ACL、NAT)
常见原因包括:
路由缺失
OSPF/BGP 邻居 flap
防火墙 ACL 拦截
NAT 表溢出
黑洞路由
网络层的问题通常是让大家最头疼的,但有方法可循。
三、复用度最高的方法:分界点排查一句话概括: 先找某个能稳定区分“正常/异常”的点,然后不断逼近问题源。
举例: 访问公网慢 → 先 ping 网关 → 稳定? 再 ping 对端内网地址 → 还稳定? 再 ping 公网 IP → 卡顿? 那问题点就在出口这一段。
这比盲目查配置快得多。
四、工具越少越好,但一定要用对以下工具几乎能覆盖大多数排障场景:
ping:判断连通性、延迟、丢包
tracert/traceroute:定位路径问题
arp -a:判断链路层异常
tcpdump/wireshark:抓包分析
查看设备日志:链路 flap、协议邻居状态
show mac / show arp / show ip route 等基础命令
网络排查不是“工具越多越好”,关键是用对位置、用对时机。
五、当你卡住时,用这 4 个问题重启思路无论多复杂的网络,如果你完全没头绪,可以问自己:
这个现象一定能复现吗?
问题是链路变慢还是完全不通?
是单向问题还是双向问题?
问题是范围性还是指向性?
网络排查一旦答案精确,方向就清晰了。
六、最后给你一套“可复用排障模板”① 明确症状 ↓ ② 用三层定位法锁定大致范围 ↓ ③ 用分界点排查缩小问题域 ↓ ④ 用基本工具验证推断 ↓ ⑤ 回溯网络变化和日志 ↓ ⑥ 复现、确认、修复
只要坚持这套流程,排查效率会成倍提升。

大部分网络排查看似复杂,本质是一个逻辑问题: 谁正常、谁不正常,先确认边界,再逐步逼近。
做任何事儿都有方法论,排查也一样,光有知识还不够,得靠框架少走弯路。 只要框架稳定,就算面对大型网络,也不会“完全没思路”。