观点网讯:10月20日,美团LongCat团队在中国正式发布VitaBench,这是一个高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准,旨在提升人工智能在真实环境中的适应能力。
VitaBench以外卖点餐、餐厅就餐、旅游出行三大高频场景为载体,构建了包含66个工具的交互式评测环境。据介绍,该基准通过跨场景综合任务设计,增强了评测的实用性和覆盖面。
观点网讯:10月20日,美团LongCat团队在中国正式发布VitaBench,这是一个高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准,旨在提升人工智能在真实环境中的适应能力。
VitaBench以外卖点餐、餐厅就餐、旅游出行三大高频场景为载体,构建了包含66个工具的交互式评测环境。据介绍,该基准通过跨场景综合任务设计,增强了评测的实用性和覆盖面。