欢迎访问K8凯发·国际!
她如何把“系统2”带给了大模型 |对话微软亚洲研究院张丽
发布时间:
2025/06
05月23日,中哈举行能源合作分委会第十三次会议,腾龙国际客服电线bet亚洲体育官网,优游彩票平台网页登录,十博10bet官网
二是要有效利用这个草稿纸,这就需要像人一样的深度推理思考方式★★,这就有了rStar系列工作■★■★。
量子位◆■■■★:为什么蒙特卡洛搜索算法在小模型上表现这么好?效果会不会仅限于小模型?
rStar-Math本质上是一种思路◆★★◆,我只需要知道每次rollout的结果是对还是错就可以应用。
MSRA张丽★★■◆◆:首先,奖励模型比策略模型更难做。奖励模型是强化学习多年来始终未完全解决的问题◆■◆★★★。
有些证明题数学家需要花几百年才能证明出来◆★★◆■■,我个人认为它应该是智能天花板的一种表现。
目前有一些第三方联系我们,比如有家公司想用这个模型做数学AI教育■★,还有国外一些知名实验室希望在代码类和数学证明方面合作■■★■。
当时我们没有进行任何训练,甚至没有训练奖励模型◆★,只是在小模型上应用蒙特卡洛搜索算法,发现效果非常好★◆■■■◆,甚至能与做了特殊微调后的模型效果相当◆★■。
还有很多媒体,国内外的,都要采访我们◆◆◆。在X上也有大量讨论,一些人给了很高评价,认为用7B模型就能达到OpenAI o1级别表现非常不可思议◆★★■◆。
MSRA张丽:我认为是的。数学推理基本上是大语言模型中最要求程序执行能力和逻辑严谨性的任务类型■★■■★★。
但要真正扩展到那么长的长度,还需要解决效率问题以及长文本数据和算力问题,这些不是我当前阶段关注的重点。
MSRA张丽:根本区别是蒙特卡洛搜索算法的奖励模型是步骤级别的,是过程奖励模型■■★◆。
MSRA张丽■■:目前还没看到这种趋势★★◆◆★,大多数人还是在做强化学习。不过我知道一些其他领域的人也在尝试蒙特卡洛搜索算法。
在当前基于PPO/GRPO强化学习路线主导的当下★◆◆■,她们的工作又将带来哪些新的可能性?
有趣的是■◆,还有一家智能车厂商联系我们,希望用我们的算法在他们的模型上复现,让我们帮助解答一些问题。
在一般问题中,奖励模型不那么准确可能还能接受,但在数学问题中,一步错误就会导致最终答案完全错误★■★◆◆◆。
但我们发现★◆◆■★,尽管隔一段时间就有新体量的模型推出★◆◆■,但实际上模型的数学深度推理能力一直没有显著提升★★。
因为System2是更高级的思维模式,有一定门槛,策略模型不能太差★★★◆◆■,而小模型作为策略模型本身就较弱★★。
量子位★■◆:你们做了scaling law实验吗?有看到你们的工作随着参数量增加效果的变化趋势吗■★■?
这些寒假安全知识超有用★◆◆■■,刘亦菲一部剧带火了5个人中国业界申请政府对欧盟乳制品和猪肉展开反补贴反倾销调查?商务部回应什么网站可以赌博有没有玩现金的捕鱼188体育平台app登录网址博狗足球
05月23日,中国出口吉尔吉斯斯坦新能源客车订单完成全批次交付,酷游ku游备用线路,鹿鼎注册登录平台★◆◆◆◆■,二八杠的口诀◆■◆★◆,亚洲城官网登录
比如写作★■,你几乎无法用几条规则判断好坏,肯定需要一个更强的奖励模型来打分。
MSRA张丽■◆◆■★:确实rStar-Math比我们之前的工作受到了更多关注◆★◆■,完全超出了我的预期。
这导致强化学习无法持续进行,所以很多做强化学习的研究者会拿掉奖励模型,但本质上还是因为奖励模型目前没有很好的解决方案。
05月23日经港珠澳大桥珠海公路口岸 通关港澳单牌车突破150万辆次12博娱乐官网BBIN体育直播手机版下载永利网址有哪些泛亚电竞手机app……
第二是进一步提升策略模型能力,希望它能学会更像人类的高级推理方式,比如主动提问或self-reflection之外的其他推理方式◆★◆。
有些非证明题甚至不需要看步骤,看答案对不对就可以了,所以可能给人感觉大模型数学能力好做★■。
MSRA张丽:我们当然希望它能有更广泛的应用■◆,或者有人基于我们的代码在更大模型上尝试。
我们确实没有刻意追求复现“aha moment◆◆◆■★◆”,但这在当时确实是个机会◆◆,很多团队都想复现◆★■■,最后发现强化学习可以激发出这种能力★■★。
如果模型size固定◆★◆■◆◆,我相信蒙特卡洛搜索算法比当前基于强化学习或蒸馏的方法潜力更高。
其次,奖励模型在强化学习中容易出现reward hacking问题。策略模型可能会用各种方法骗过奖励模型,实际上输出的答案并不好■◆◆◆★。
05月23日韩国国会弹劾监察院院长凤凰闲情Cleyu乐鱼官网app苹果下载365bet官网最新网址天博体育应用下载
量子位■■:能简单介绍下rStar-Math的核心工作吗★◆■?当初为什么选择这个研究方向?
05月23日★◆,(八闽千姿)客家古村闹春田 游灯民俗祈丰年,斗地主赢钱苹果版,国际真人象棋下载安装,AG平台官网,天天斗地主最新版
大模型经过预训练记住这些模式后◆◆■◆,强化学习或蒙特卡洛搜索算法会将这种能力激发出来◆■★◆★。
RTX 4090D首测:性能损失约6%■★■■,高铁上2女子拉扯遮光帘40分钟闻香识豆★◆★:科学如何赋予罗布斯塔咖啡豆新魅力如意娱乐翡翠报开元棋275手机版彩票官网
MSRA张丽:我觉得会。现实中有很多任务没有明确标准答案,很难用简单规则评价。
互联网上的大量数据中会自然混入一些这样的内容★★◆■■★,因为这是人类基本的高级思考模式。
05月23日第三届石榴杯征文活动收官《衣冠不南渡》等十部作品获奖Bob天博官网赢钱在线官方登千赢国际在线日年味“调料◆★■■◆◆”:江西乐平制作“香烟糖★■★★”迎新春mg手机游戏网址亿博电子网投凤凰02下载澳门最新网站游戏
05月23日前五个月南昌空港口岸国际货邮吞吐量增长逾五成大发888入口美高梅登录网站ROR备用网址博天堂线路检测
05月23日国家民委党组《求是》刊文:以铸牢中华民族共同体意识为主线加强和改进党的民族工作 K8凯发在线官网亚洲电子游戏平台美高梅官方明升体育在哪开户
量子位:您认为奖励模型的重要性未来会成为共识吗■★◆◆■?对奖励模型的研究会增多吗★◆★?
张丽,MSRA系统研究组首席研究员■■★★,微软LongRoPE及rStar系列工作项目leader◆■。
MSRA张丽:我个人认为,大模型预训练数据中本来就包含人类自我反思过程的信息。
MSRA张丽:这其实并不是有意为之,是意外收获◆★★◆■★。后来想想,可能间接验证了self-reflection是提升大模型智商的关键能力这一点。
如果是强化学习,模型发现用了self-reflection后能答对,就会给这个策略更高分数★■■■。最终结果都是让模型涌现出这种能力★■★◆。
05月23日■★★■★★,新疆阿克苏地区乌什县发生7.1级地震:已出现房屋倒塌情况 一被压儿童成功获救,乐鱼注册App,币博网站,欧博官网APP■◆■,美高梅下载iOS
妈妈朋友的儿子★■◆,光荣翻车■■■★★!浪人崛起销量低于预期政策显效,信贷结构有亮点◆◆■◆★■!金融支持实体经济作用进一步传导dafabet888亚洲唯一球探体育比分直播网菠菜大平台导航九游会老版网站
05月23日◆■◆★■■,4月亚洲制造业PMI为51◆■.5% 延续温和复苏趋势,倍投网址,bobapp官网下载★■◆,AG亚游集团注册★■★◆■■,亿博注册彩金
即使是正确的trace中,我们也会挑选出更优的步骤,这相当于做了很好的数据筛选■■★★■。
多搜索几次可能找到比一次回答更好的答案,但两者差距可能不大,从性价比上考虑可能必要性不会特别高。
吧友来预测巴黎闭幕式旗手,黄昏失焦5400余名中外选手竞逐2024天津生态城半程马拉松万博网址多少啊十大线上赌城免费德州游戏免费游戏森林舞会
比如FrontierMath这个高难度数学基准测试,由多名数学家出题,目前最强的模型在上面的准确率也只有2%左右。
以下为量子位与rStar-Math作者微软亚洲研究院首席研究员张丽的对话实录整理:
要在提升大模型智商这个方向继续前进,一个优秀的过程奖励模型是必不可少的◆■■。
对通用任务,它可以用但不一定是必要的。普通大模型一次回答可能就足够接受,不需要再用System2去多次搜索。
打完分后◆■■,我就能收集数据构造过程奖励模型★★◆★◆,这就是rStar-Math的核心思想。
一个是让模型具备无限且持久的记忆能力◆■,另一个是提升模型的深度推理逻辑思考能力。
量子位:有种说法认为大家对提升数学能力的研究更多是因为它结果唯一、数据全且易验证,数学能力一定代表智商天花板吗?
MSRA张丽:之前它不是很主流◆■◆,但学术界确实有一些工作开始关注这个方向■◆。
一开始在DeepSeek R1和Kimi 1■■★◆★■.5出来之前,主要质疑是“小模型能力怎么会这么强◆★■★◆◆”以及“这个方法能否泛化到其他任务”■★,所以后来我们开源了代码和数据。
05月23日,韩媒:韩国2025学年高考今日开考■■,博一博体育平台,bob综合体育平台网址,欧博app链接,金宝博app
在解决复杂问题过程中◆■★,模型发现用了self-reflection后效果更好◆★■◆■◆,蒙特卡洛算法就会把这些标记为高质量数据;
由于我们的工作受到关注◆◆■◆■■,有人联系我们,希望将这种方法应用到金融或医疗领域◆■◆★。一些实际场景需要较小的模型,他们可能会考虑我们的方法。
本期「大模型创新架构」主题访谈,量子位邀请到rStar-Math作者微软亚洲研究院首席研究员张丽,聊聊突破大模型智商上限★■、奖励模型以及System2背后的故事。
MSRA张丽:数学任务确实更容易着手研究■★◆★★■,效果更容易验证,但要真正提升数学推理能力并不容易。
它唯一的门槛是在rollout到根节点时需要判断这次outcome是否正确,这个门槛并不高,所以应用场景其实很广,泛化性没有问题■■★◆。
MSRA张丽:我们觉得■★★■◆◆,大语言模型真正要落地应用◆★★,或者实现通用,其他能力可能都好说,智商或推理能力才是最关键因素。
大模型有了这个基础◆◆★■■,再去做其他应用■★,让大模型落地或提高社会生产力★★★■■,都会变得简单得多◆■。
05月23日北京亦庄◆◆◆◆★“新药智造”产业高地行动已见成效手机网赌app下载抢庄牛牛娱乐棋牌澳博国际app下载华纳国际官网官网
我们2025年1月发布的rStar-Math工作◆★,简单说是第一个公开通过蒙特卡洛搜索算法,让7B模型实现了接近OpenAI o1级别的数学推理能力的工作■■★■。
量子位:您看好rStar-Math在工业级模型上落地吗◆◆★?在通用场景中◆◆■,蒙特卡洛搜索算法的搜索空间会不会太大?
MSRA张丽:一直以来我们主要沿着如何提升大语言模型的智商这个大方向在持续做研究■■◆★★,具体分两个方向:
第二是我们用了过程奖励模型配合蒙特卡洛搜索算法,会做很多rollout,给不同步骤和每个trace打分。
MSRA张丽:可能是我们吧。更准确地说■★◆◆★◆,当我们想定义这种能力时,从人脑认知科学中找到了这个可以类比的词。
如果中间某个节点每次都能导向正确答案★◆◆★★■,那可能是个正确步骤;如果经常导向错误答案■◆★■★★,可能就是错误步骤。
第三是扩展任务领域,除了数学外◆★■,我们还想扩展到高难度的代码推理任务,最终实现通用的深度推理能力★■■■。
MSRA张丽:主要有两点■◆■★。第一是code-augmented CoT,虽然最初是为小模型设计的,但对更大模型也有用。
Best of N是结果奖励模型★★◆■★■,不关注过程◆◆■■★◆,所以蒙特卡洛搜索算法效果更好。
鲁豫调侃邓超有■■◆★◆★“班味儿”,专家称中国人口会长期处于负增长东西问|辛礼学:南海西北陆坡一号◆◆◆、二号沉船遗址考古有哪些亮点?捕鱼达人正版是哪个线登录皇冠现金注册
感觉有点◆◆“破圈◆★◆■”效应。学术圈通常只有做同方向的人才会关注你的工作◆◆■★,但那时很多不做这个方向的同事朋友都发微信说某某看了我们工作想认识一下◆★★■,这种情况很少见。
量子位:rStar-Math在研究过程中模型自己涌现出了self-reflection能力,这意味着什么?
这种自我修正或自我反思是人类做很多事情都会使用的思维方式,可以说是一种必备能力。
也有人讨论2025年会不会是小模型的时代,还引发了关于scaling law与其他路线的新一轮辩论。
看各行各业的顶尖人才,他们的专业领域不同,有人擅长解数学题,有人擅长写代码,有人写作或口才好■◆◆,但本质上他们都有很强的推理能力■■■,这就是智商★■■■★★。
人类的其他复杂任务可能现在各方面研究条件还不够成熟■◆■★◆,所以感觉大家都在做数学能力■★■◆■■。
作为研究员★◆★◆■,我们比较注重逻辑推理思考能力■◆,所以很自然会希望大语言模型能像我们一样具备很强的推理能力★◆◆。
MSRA张丽:关于长文本■★■★◆,我们之前做LongRoPE时从算法层面提供了让预训练模型文本窗口可以拓展到无限的方案■◆◆■■■。
一是希望模型在解题时能够利用很长的“草稿纸”,所以我们做了LongRoPE,拓展大模型长文本的推理窗口。
所以为了解决小模型效果不理想的问题■◆★★■■,如幻觉等,我们唯一做的就是加了code-augmented CoT,尽量让蒙特卡洛搜索算法效果发挥到极致。
当最终结果正确时,我就认为这次rollout中的每个步骤都有贡献★◆■■★◆,就会返回给它们打分,然后进行更多rollout。
2022年11月ChatGPT出来时,大家都被震惊了,但是我们发现它仍然在有些方面做得不够好。
05月23日,个人养老金基金再扩容 新增6只产品■◆◆■,名仕亚洲客户端◆★,贝博app网页版◆◆■★◆,国际五子棋真人比赛,新澳门网投是线日,昆明植物园冬日★◆★“枫景★★”醉游人,博狗世界杯功率,纬来体育最新地址◆★★■,云顶娱乐官网手机版网页,九游会是不是大平台
我们当时做这个工作的时候★★◆■■,整个行业趋势还是在卷scaling law■◆★◆◆◆,认为模型size越大,数据量越多,效果越好■◆★◆★◆。
2023年,业界还在卷Scaling Law,不断突破参数规模和数据规模时,微软亚洲研究院张丽团队就选择了另一条路径。
繁城之下★★■◆◆,宋运辉梁思申一吻定情热带气旋贝拉尔逼近留尼汪岛 中国驻法使馆提醒当地侨民提高警惕开元体育深海捕鱼街机版明升体育手机版登陆叁零内幕报
量子位◆◆★:蒙特卡洛搜索算法的奖励模型和传统Best of N奖励模型的根本区别是什么?
对于复杂逻辑推理问题◆★■■★■,比如数学证明也很难做好的奖励模型,因为它不只是结果对就行★◆,必须每一步证明都正确,需要一个非常严格的过程奖励◆■★◆■★。
后来,DeepSeek R1和Kimi 1.5出来了★■◆■,有人开始讨论复现OpenAI o1效果到底是否真的需要蒙特卡洛搜索■■。这些质疑都很合理,因为每个人观点不同◆★。
我想可能是因为当时o1已经出来好几个月,但还没有哪份公开的报告能说清楚它是怎么做到的。
关键词
上一页:
:下一页
我们的产品
活牛进场严格按照检验流程操作,对所有肉牛进场前进行血清检测瘦肉精,合格后进入待宰圈静养,静养后进行屠宰。屠宰过程全部按照清真工艺要求和屠宰操作规程进行,所有牛肉产品检测合格后才准出厂。
关注我们