华为 盘古大模型抄袭阿里 通义千问这事,我给你们做一个揭秘,也可以理解为一个硬核的视角。
人工智能飞速发展,离不开一个开放的环境。从训练的框架,到模型的框架,再到测试验证的框架,同一个领域,几乎都能看到彼此的影子...
现有的开源大模型,大量基于Transformer改进,有的改改注意力机制,有的改一改Softmax也会被发表出来。
举一个案例:SwinTransformer相对于Transformer,只是改进了一个局部自注意力。以此来提升Transformer架构的局部性,只把对所有特征进行的的全局自注意力,分块进行滑动窗口自注意力。它能做的修改十分有限,但这篇论文最终发表在顶会顶刊。
人工智能,现阶段主要还是修修补补... 在各种开源项目基础上,层层做出自己的“装修风格”[doge] 所以吧,这事到底抄没抄袭,你们自己判断了...