新闻中心

首页 > 新闻中心 > ob体育app

阿里云通义开源最强进程奖赏PRM模型 7B尺度比GPT-4o更能发现推理过错

发布日期:2025-02-17 17:58:44 |   作者: ob体育app

  阿里云通义开源全新的数学推理进程奖赏模型Qwen2.5-Math-PRM,72B及7B尺度模型功能均大幅逾越同类开源进程奖赏模型。

  据悉,在辨认推理过错进程才能上,Qwen2.5-Math-PRM以7B的小尺度逾越了GPT-4o。一起,通义团队还开源了首个进程级的评价规范ProcessBench,此项评价规范填补了大模型推理进程过错评价的空白。

  据了解,为更好衡量模型辨认数学推理中过错进程的才能,通义团队提出的全新评价规范ProcessBench。该基准由3400个数学问题测验事例组成,其间还包括奥赛难度的标题,每个事例都有人类专家标示的逐渐推理进程,可归纳全面评价模型辨认过错进程才能。这一评价规范也已开源。

  此外,在ProcessBench上对过错进程的辨认才能的评价中,72B及7B尺度的Qwen2.5-Math-PRM均显示出明显的优势,7B版别的PRM模型不光逾越同尺度开源PRM模型,乃至逾越了闭源GPT-4o-0806。这证明了进程奖赏模型(PRM)可以明显提高推理的可靠性,为未来开发推理进程监督技能拓荒了新的途径。