DeepSeek发布DSpark
中国大模型的路线很确定,在效果差不多的前提下拼成本,DeepSeek在这方面属于开创者和集大成者。
DSpark的表现不错,相比MTP基线,可以带来51%-400%的吞吐提升,并在Qwen、Gemma等开源模型上展现出迁移表现。不过这一效果还有待在实际部署中持续验证。
中国大模型不缺人才,缺的是顶级算力(跟美国科技巨头相比),所以必然要采取迂回路线。DeepSeek刚完成500亿融资,弹药充足,期待它接下来的表现。
老张聊科技
deepseek发布dspark
DeepSeek发布DSpark
中国大模型的路线很确定,在效果差不多的前提下拼成本,DeepSeek在这方面属于开创者和集大成者。
DSpark的表现不错,相比MTP基线,可以带来51%-400%的吞吐提升,并在Qwen、Gemma等开源模型上展现出迁移表现。不过这一效果还有待在实际部署中持续验证。
中国大模型不缺人才,缺的是顶级算力(跟美国科技巨头相比),所以必然要采取迂回路线。DeepSeek刚完成500亿融资,弹药充足,期待它接下来的表现。
老张聊科技
deepseek发布dspark