
(文接上篇)
不是巧合,而是机制决定的做网络久一点的人,大多都有一个共识:
ARP 问题,基本都出在“大二层”。小网络几年不出一次; 一旦二层做大,就开始各种:
偶发掉线
网关不通
ARP 表乱跳
CPU 飙高
抓包全是广播
很多人把锅甩给“设备不行”或者“交换机性能差”, 但实话是:
大二层天然就更容易放大 ARP 的缺陷。这是机制问题,不是品牌问题。
一、ARP 有三个“天生短板”ARP 从设计上就带着三个特点:
依赖广播
无认证机制
靠缓存维持状态
在小网络里,这些问题不明显;在大二层里,会被指数级放大。
下面逐条拆。
二、二层越大,广播越多(这是最核心原因)ARP 请求是广播:
Who has 192.168.1.1? Tell me
广播的特点是:
整个广播域内,每台设备都会收到。如果你的网络是:
20 台设备 → 一次 ARP = 20 次接收
但如果是:
2000 台设备 → 一次 ARP = 2000 次接收
流量不是线性增长,而是:
设备数 × ARP 次数 的叠加放大于是会出现:
交换机端口利用率不高
但广播比例异常高
CPU 被大量 ARP 打满
这就是典型“大二层病”。
三、ARP 表规模变大,学习和老化更频繁每台设备都要维护 ARP 表。
在小网络:
几十条 ARP
很稳定
在大二层:
上千甚至上万条 ARP
老化和刷新非常频繁
结果就是:
ARP miss 增加
新通信频繁触发广播
广播更多 → 更拥堵
这是一个自我放大的循环:
规模越大 → ARP 越多 → 广播越多 → 网络越抖 → 重新学习越多四、任何异常终端,影响范围都变大这是大二层最危险的地方。
举个现实例子:
一台异常主机:
ARP 洪泛
发包异常
中病毒疯狂扫描
如果在小 VLAN:
影响几十台
如果在大二层:
直接影响整个网段
因为:
广播域没有边界,问题会被无差别扩散。所以你会看到:
一台终端异常
整个办公区网络都慢
本质不是带宽被占满,而是控制面被拖垮。
五、ARP 欺骗在大二层里成功率更高ARP 没有身份认证:
谁先回,信谁
谁多发,信谁
在大二层中:
设备多
广播多
竞争更激烈
结果是:
ARP 表频繁被刷新
错误学习概率变大
网关 MAC 来回跳
表现就是经典现象:
一会儿能上网,一会儿不行这种问题在小网络很少见, 在大二层却非常典型。
六、为什么很多企业开始“去大二层”?这几年网络设计有个明显趋势:
尽量缩小广播域,控制二层规模。常见做法包括:
多 VLAN 划分
三层到接入
网关下沉
VXLAN + 三层转发
减少纯二层扩展
核心就一句话:
把 ARP 控制在小范围内。不是为了复杂,而是为了稳定。
七、工程上更实用的几个建议如果你现在已经是大二层架构,可以优先做这些:
① 控制单 VLAN 规模几百台以内更可控
不要动辄上千
② 开启 ARP/广播抑制Storm Control
ARP rate limit
③ 核心设备做 ARP 防护DHCP Snooping
ARP Inspection
IP-MAC 绑定
④ 关键服务器静态 ARP网关、核心、重要主机优先保护
这些措施的目标只有一个:
减少“无意义广播”和“错误学习”。最后ARP 本身很简单,但它是:广播型、无状态、无认证。
这样的协议,一旦放进大规模二层网络, 问题几乎是必然出现的。
一句话总结:
不是大二层一定出问题,而是大二层放大了 ARP 的所有缺点。