麦吉尔团队突破大模型数据生成局限统计可控数据合成现有的数据合成方法在合理性和分布

量子位看科技 2025-05-25 15:25:20

麦吉尔团队突破大模型数据生成局限统计可控数据合成

现有的数据合成方法在合理性和分布一致性方面存在不足,且缺乏自动适配不同数据的能力,扩展性较差。

大语言模型受限于采样效率和上下文窗口大小,难以直接合成大规模数据集。

如何用大模型生成结构对齐、统计可信、语义合理的数据,成为了亟待解决的问题。

为此,麦吉尔大学团队提出了新方法LLMSynthor——

通过这个方法,可以让大模型变成结构感知的数据模拟器,为隐私敏感、数据稀缺场景生成不泄密的高质量替代数据。

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注