AndesGPT-2.0性能全面领先

最近,权威第三方AGI评测机构SuperCLUE发布了《中文大模型基准评测2024年8月报告》,AndesGPT-2.0在此次测试中表现卓越,荣获SuperCLUE 8月总榜国内大模型第二名。同时,该模型在SuperCLUE 8月测评的子榜单中表现突出,分别取得了SuperCLUE-Safety、SuperCLUE-Math6和SuperCLUE-Agent榜单的三项第一名。

图片上图为SuperCLUE 8月总排行榜

图片上图为SuperCLUE-Safety安全榜单

图片上图为SuperCLUE-Math6数学推理榜单

图片上图为SuperCLUE-Agent智能体榜单

AndesGPT-2.0能够取得如此卓越的成绩,得益于OPPO在大模型技术领域的深厚积累。作为OPPO在人工智能领域的重要创新,AndesGPT-2.0自发布以来便备受瞩目。该模型在对话增强、高效强化学习以及多模态能力等关键技术上取得了显著突破,同时在AI技术的安全性、数学推理能力和Agent能力等方面展现了行业领先地位。

作为OPPO AI战略的核心引擎,AndesGPT正全面赋能OPPO的智能终端,支持通话助手、智能摘要等多样化应用场景。未来,OPPO将持续投入云端算力,通过自建的OPPO AI滨海湾数据中心,部署不同级别的模型以应对各类应用场景,实现端云协同与高效部署。

AndesGPT-2.0的三大核心优势

1. 对话增强技术

在对话增强方面,AndesGPT-2.0深入研究了小布助手的多轮对话,运用了多轮指令数据和多轮偏好数据合成技术,从而增强了模型在理解和生成自然语言时的准确性与流畅度。尤其是在处理复杂对话和挑战性任务时,能够提供更符合用户需求的响应。目前,产生的数据已在“小布助手”等实际业务场景中得到广泛应用,显著提升了用户的体验。

2. 高效强化学习策略

在训练方法上,AndesGPT-2.0采用了迭代式监督微调和偏好对齐优化的方法,从多个维度不断优化模型。该训练方法不仅提升了模型的智能性和可靠性,同时确保了提供服务时的安全性和无害性,这对于建立用户信任至关重要。

3. 多模态能力

AndesGPT-2.0将大语言模型升级为多模态大模型,交互方式从传统的语言交互升级为语言+视觉+触摸的多模态交互,带来了更加自然流畅的用户体验。

AndesGPT-2.0技术突破解析

1. 综合性能

为了全面提升AndesGPT-2.0的通用性能,OPPO的研发团队精心收集了国内外的广泛开源指令数据集,并通过严格的数据过滤机制筛选出高质量的种子指令。基于这些种子数据,团队进一步通过指令进化和数据合成技术,优化指令数据集,确保模型在处理复杂任务时的准确性和鲁棒性。在精调模型阶段,通过多轮迭代合成指令数据,显著提高了模型的综合能力。

特别是在处理超长上下文方面,团队不仅收集了丰富的开源长文本指令数据,还从预训练语料中筛选出高质量的长文档,通过数据合成生成高质量的长文本指令数据集,使得AndesGPT-2.0在处理长文本时表现更为出色。在偏好对齐阶段,团队通过合成多轮偏好数据,并使用多轮迭代强化训练完成模型的偏好对齐训练,使其更好地理解和满足用户的需求。这些努力在SuperCLUE 8月份的测评中得到了验证,AndesGPT-2.0荣获银牌,国内排名第二,并入选卓越领导者象限。

2. 技术安全性能

OPPO深刻认识到大语言模型在带来便利的同时,也面临多重安全威胁。为此,公司特别成立了AI安全实验室,专注于跟踪行业内最新的攻击方法,并全面评估自研模型的安全性。AndesGPT研发团队紧密结合实验室的评测结果,及时修补安全漏洞,以确保模型的安全和可靠性。

在最新发布的Safety榜单中,AndesGPT以96.68分的总成绩位列榜首,同时在传统安全榜、负责任安全榜和指令攻击安全榜等子类榜单中均取得第一,充分展示了OPPO在AI安全领域的领先地位和不懈努力。此外,AndesGPT还在小布安全业务中发挥了重要作用,显著提升了业务系统的安全性和可靠性。

3. Agent能力

在Agent能力方面,AndesGPT通过构建1~6步API编排的“工具检索 + 任务规划”模型,实现了快捷指令等自动化任务流的高效执行。该模型能够将用户请求映射到丰富的工具库(包括垂域模型、云侧API及手机应用API),自动完成原本需要多次手动操作的任务。为了提升Agent效果,团队收集了数万级别的多样化API,并通过大模型优化API的功能描述和输入输出参数,使其更易于被模型感知。

在数据合成和训练调优方面,团队利用“API虚拟执行环境”提供的反馈信号,通过best of N、迭代反思修正等策略不断提升样本质量,同时采用“LLM + MCTS”方案优化Agent能力。在SuperCLUE-Agent榜单评测中,AndesGPT以总分80.12分位列国内第一,验证了其在任务规划方面的前沿地位。

4. 数学推理能力

逻辑推理能力是大模型的重要组成部分,而数学问题则是检验这一能力的关键领域。针对数学问题的复杂性和多样性,AndesGPT研发团队收集了大量开源数学数据集,并通过三重数据过滤构造高质量的CoT(Chain of Thought)和PoT(Program of Thought)数据。

针对多步数学问题的高错误率,团队通过指令进化和多轮问题转多步问题等方法大幅提高了多步数据的占比,同时通过多轮迭代指令精调和强化学习优化显著提升了模型的数学能力。在SuperCLUE-Math6的测评中,AndesGPT以90.45分的综合分数夺得国内第一,充分展现出在数学推理领域的强大实力。

总结与展望

AndesGPT-2.0以对话增强、高效强化学习以及多模态能力为亮点,凭借优秀的综合性能、安全性能、Agent能力及数学推理能力,在SuperCLUE 8月测评中取得了卓越成果。这些成就的取得,是OPPO在AI领域持续创新与技术研发的结果。

展望未来,随着技术的不断进步与创新,AndesGPT-2.0有望在更多领域展现出更强大的能力,为用户提供更加丰富和高效的智能服务体验。OPPO将继续推动AI技术的边界,为全球用户带来更多创新与价值。

最后修改日期: 2024年9月15日

作者

留言

撰写回覆或留言

发布留言必须填写的电子邮件地址不会公开。