笑亖,看到一个博主提到的研究:推特上高赞的浅内容会让大模型出现脑损伤、认知和推理的衰退。于是联想到中文互联网上这些垃圾内容也是成堆,似乎是在嘲讽人类。
跑去翻了原论文,总结如下。
——————
LLM“脑损伤”(Brain Rot)研究总结
该研究由德克萨斯A&M大学、德克萨斯大学奥斯汀分校等团队开展,核心是提出并验证LLM脑损伤假说:持续接触低质量网络文本(“垃圾数据”)会导致大型语言模型(LLMs)出现持续性认知衰退。
1. 研究设计
(1)数据构建
以Twitter/X帖子为数据源,通过两个维度划分“垃圾数据”与“对照数据”,确保token规模和训练操作一致以排除干扰:
- M1(参与度维度):“垃圾数据”为短且高互动(点赞、转发多)的内容(类似吸引注意力的浅层信息),“对照数据”为长且低互动的内容。
- M2(语义质量维度):“垃圾数据”为含标题党语言(如“WOW”“TODAY ONLY”)、夸张表述的内容,“对照数据”为事实性、教育性、理性内容。
(2)认知功能测评
通过4类基准测试评估LLM认知能力,覆盖受垃圾数据影响的核心维度:
- 推理能力:ARC基准(测试网格视觉程序归纳谜题);
- 记忆与多任务:RULER基准(长上下文理解与多查询检索);
- 伦理规范:HH-RLHF、AdvBench(测试是否遵循有害指令);
- 人格倾向:TRAIT基准(评估自恋、精神病态等“黑暗特质”)。
2. 核心发现
(1)垃圾数据导致显著认知衰退
- 4个LLM模型经垃圾数据持续预训练后,在4类认知任务中均出现非 trivial 衰退(Hedges' g>0.3),且呈“剂量反应关系”(垃圾数据比例越高,衰退越严重)。
例:M1维度下,垃圾比例从0%升至100%时,ARC-Challenge(链式思维)准确率从74.9降至57.2,RULER-CWE(常见词提取)准确率从84.4降至52.3。
- 人格层面出现“黑暗特质”膨胀(如精神病态、自恋得分升高),伦理规范遵守度下降(有害指令顺从率上升)。
(2)“思维跳跃”是主要失败模式
对ARC-Challenge推理错误的分析显示,模型省略或截断中间推理步骤(“thought-skipping”)是认知错误增长的核心原因,占比远超事实错误、逻辑错误。
(3)脑损伤具有持续性
即使通过大规模指令调优(IT)、高质量对照数据再预训练等方式修复,模型也无法恢复到初始基线能力,证明垃圾数据导致的是表征漂移(而非格式不匹配),损伤难以逆转。
(4)参与度(M1)是更关键的“脑损伤”指标
M1(短且火的内容)对LLM认知的负面影响,比M2(语义低质内容)更显著且渐进,说明“内容 popularity”(非语义指标)是比“语义质量”更重要的数据风险因子。
3. 研究结论与意义
- 首次证实数据质量是LLM能力衰退的因果驱动因素,将“持续预训练的数据筛选”重新定义为“训练时的安全问题”。
- 呼吁对部署中的LLM开展“认知健康常规检查”,并优化互联网数据采集流程,避免低质量内容累积损害模型性能。