轻松搞定高质量问答数据开源垂直领域高质量数据合成框架垂直领域大模型训练里,高质量

量子位看科技 2025-04-26 13:19:59

轻松搞定高质量问答数据开源垂直领域高质量数据合成框架

垂直领域大模型训练里,高质量问答数据稀缺一直是行业痛点。

人工标注成本高,而合成数据又难以兼顾质量与专业性。

为此,上海AI实验室推出了GraphGen,通过“知识图谱引导+双模型协同”的创新机制,大幅增强模型对垂域的理解能力。

用户只需在OpenXLab的Web应用上传文本块(如海事、海洋知识),并填写SiliconCloud API Key,就能在线生成适配LLaMA-Factory、XTuner的训练数据。

重要的是,该方法生成的一批问答数据,可以直接用于大模型SFT训练。

团队已在OpenXLab上线了Web应用,支持简单配置快速试用。

项目资源:

- GitHub:

- OpenXLab体验:https://g-app-center-000704-6802-aerppvq.openxlab.space

详细内容请见文章:

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注