当前位置:首页 > 科技 > 正文内容

4轮暴训,Llama 7B击败GPT-4,Meta等让LLM“分饰三角”自评自进化

admin2年前 (2024-08-07)科技276

元奖励语言模型:AI自我评价的新突破

4轮暴训,Llama 7B击败GPT-4,Meta等让LLM“分饰三角”自评自进化

近日,Meta、UC伯克利和NYU联合发布了一项关于元奖励语言模型的研究,为人工智能的自我改进提供了新思路。这项研究旨在让AI模型不仅能作为参与者(actor)从反馈中优化,还能作为评判者(judge)自我评价,进而提升其对齐能力。

传统的语言模型对数据的需求巨大,特别是在RLHF和DPO等对齐阶段,这不仅增加了成本,还可能导致模型性能受限于人类水平。今年1月,Meta和NYU的研究团队首次提出了语言模型的自我奖励机制,通过LLM-as-a-Judge的方式,使模型能够在训练过程中进行自我反馈,无需依赖人类标注者。

最新研究表明,为了实现更高效的自我改进,需要增加一个“元奖励”步骤,即让模型评估自身的评估能力。尽管听起来复杂,但实际上这一方法在实验中显示了显著的效果。例如,Llama-3-8B-Instruct在AlpacaEval 2上的胜率从22.9%提高到39.4%,超过了GPT-4的表现;在Arena-Hard上的表现也从20.6%提升至29.1%。

这项研究进一步验证了模型的自我提升可以独立于人类监督。Meta科学家Yann LeCun对此表示高度认可,并认为这是AI领域的一项重要进展。

这项研究的成果不仅为AI模型的自我改进提供了新的理论支持,也为减少对人类监督的依赖开辟了新的道路。未来,随着技术的不断发展,元奖励语言模型有望在更多领域展现其潜力。

扫描二维码推送至手机访问。

版权声明:本文由文雀网发布,如需转载请注明出处。

本文链接:https://www.360wq.com/index.php/post/383.html

分享给朋友:

“4轮暴训,Llama 7B击败GPT-4,Meta等让LLM“分饰三角”自评自进化” 的相关文章

宇宙中最大的行星是什么?揭开“超级木星”的神秘面纱

宇宙中最大的行星是什么?揭开“超级木星”的神秘面纱

韦伯太空望远镜揭示超级木星的奥秘:轨道周期为何如此漫长?近日,韦伯太空望远镜的一项重大发现引发了科学界的广泛关注。该望远镜在邻近的一颗恒星周围发现了一颗超级木星,其直径与木星大致相同,但质量却是木星的六倍。这颗超级木星的轨道周期异常漫长,成为科学家们研究的重点。超级木星的轨道周期之所以如此之长,主要...

资兴市长:尚有148公里道路未抢通,19个行政村未通行

资兴市长:尚有148公里道路未抢通,19个行政村未通行

郴州市积极应对台风“格美”灾害,全力恢复基础设施8月2日上午,郴州市人民政府召开新闻发布会,回应社会关切。资兴市人民政府市长陈占华在会上介绍了台风“格美”引发的泥石流和山洪对当地造成的严重影响及应对措施。台风“格美”导致15条(段)国省干线及主要县乡道路阻断,灾毁里程达370公里。目前,当地已抢通1...

保日元,还是保股市?日本要选择了

保日元,还是保股市?日本要选择了

日本股汇市场震荡,政策制定者面临两难选择近日,日本股汇市场出现显著波动,引发市场广泛关注。随着日元迅速上涨,日股遭受猛烈重创,东证指数创下2020年4月以来最大单日跌幅。日本央行的加息举措旨在稳定日元,但却导致股市走弱,令政策制定者陷入两难困境:是继续加息以强化日元并抑制通胀,还是维持宽松政策以支撑...

方便面因太辣遭封杀!吃辣背后竟有这么多科学

方便面因太辣遭封杀!吃辣背后竟有这么多科学

为何我们爱辣椒?科学揭示辣味背后的秘密据全球调查显示,大约三分之一的人每天都会食用辣椒。尽管辣椒带来的刺痛感和灼烧感让人难以忍受,但人们依然对其情有独钟。然而,过量食用辣椒也可能引发严重身体不适,甚至导致急性中毒。近日,丹麦食品管理局要求韩国三养食品召回三款超辣火鸡面,原因是辣椒含量过高,可能危及消...

跟换球拍到底有没有关系?中国科协发文

跟换球拍到底有没有关系?中国科协发文

王楚钦爆冷出局,换球拍真的无关紧要吗?在巴黎奥运会乒乓球男子单打比赛中,中国“头号种子”选手王楚钦以2比4的成绩不敌瑞典选手莫雷加德,爆冷出局,无缘16强。这一结果引发了公众的广泛热议。此前,王楚钦的球拍在混双金牌直播时被踩坏,此次失利更是让社交媒体上关于此事的讨论愈演愈烈。尽管王楚钦本人表示“换球...

“AI训练师”培训,盯上小城市

“AI训练师”培训,盯上小城市

AI训练师:二三线城市的新兴职业选择?明明,一名在二线城市普通高校就读的大四学生,面对即将到来的毕业季,选择了花费2万余元报名参加“AI训练师”课程。这不仅仅是个例,越来越多的二三线城市年轻人开始关注并投入这一新兴领域。AI训练师,这个职业在2020年被纳入国家职业分类目录,主要负责在人工智能产品的...