轻松搞定高质量问答数据开源垂直领域高质量数据合成框架
垂直领域大模型训练里,高质量问答数据稀缺一直是行业痛点。
人工标注成本高,而合成数据又难以兼顾质量与专业性。
为此,上海AI实验室推出了GraphGen,通过“知识图谱引导+双模型协同”的创新机制,大幅增强模型对垂域的理解能力。
用户只需在OpenXLab的Web应用上传文本块(如海事、海洋知识),并填写SiliconCloud API Key,就能在线生成适配LLaMA-Factory、XTuner的训练数据。
重要的是,该方法生成的一批问答数据,可以直接用于大模型SFT训练。
团队已在OpenXLab上线了Web应用,支持简单配置快速试用。
项目资源:
- GitHub:
- OpenXLab体验:https://g-app-center-000704-6802-aerppvq.openxlab.space
详细内容请见文章: