当前位置:首页 > 科技 > 正文内容

4轮暴训,Llama 7B击败GPT-4,Meta等让LLM“分饰三角”自评自进化

admin2年前 (2024-08-07)科技250

元奖励语言模型:AI自我评价的新突破

4轮暴训,Llama 7B击败GPT-4,Meta等让LLM“分饰三角”自评自进化

近日,Meta、UC伯克利和NYU联合发布了一项关于元奖励语言模型的研究,为人工智能的自我改进提供了新思路。这项研究旨在让AI模型不仅能作为参与者(actor)从反馈中优化,还能作为评判者(judge)自我评价,进而提升其对齐能力。

传统的语言模型对数据的需求巨大,特别是在RLHF和DPO等对齐阶段,这不仅增加了成本,还可能导致模型性能受限于人类水平。今年1月,Meta和NYU的研究团队首次提出了语言模型的自我奖励机制,通过LLM-as-a-Judge的方式,使模型能够在训练过程中进行自我反馈,无需依赖人类标注者。

最新研究表明,为了实现更高效的自我改进,需要增加一个“元奖励”步骤,即让模型评估自身的评估能力。尽管听起来复杂,但实际上这一方法在实验中显示了显著的效果。例如,Llama-3-8B-Instruct在AlpacaEval 2上的胜率从22.9%提高到39.4%,超过了GPT-4的表现;在Arena-Hard上的表现也从20.6%提升至29.1%。

这项研究进一步验证了模型的自我提升可以独立于人类监督。Meta科学家Yann LeCun对此表示高度认可,并认为这是AI领域的一项重要进展。

这项研究的成果不仅为AI模型的自我改进提供了新的理论支持,也为减少对人类监督的依赖开辟了新的道路。未来,随着技术的不断发展,元奖励语言模型有望在更多领域展现其潜力。

扫描二维码推送至手机访问。

版权声明:本文由文雀网发布,如需转载请注明出处。

本文链接:https://www.360wq.com/index.php/post/383.html

分享给朋友:

“4轮暴训,Llama 7B击败GPT-4,Meta等让LLM“分饰三角”自评自进化” 的相关文章

在上海,把家里客厅开放给懒汉们的三年

在上海,把家里客厅开放给懒汉们的三年

上海懒汉之家:共享生活的新篇章在上海这座繁华都市中,有一个独特的空间——懒汉之家。这里不仅是一个居住的地方,更是一个共享食物和经验的社区。懒汉之家通过共居计划,举办了各种活动,如读书俱乐部、画画活动等,促进了朋友们之间的互动。此外,家庭电影节也成为了一个亮点,吸引了不同背景的人聚集在一起,共同享受电...

凌晨开海、千帆竞发,连云港赣榆鲜活海产品最快今天上市

凌晨开海、千帆竞发,连云港赣榆鲜活海产品最快今天上市

江苏赣榆区渔船正式启航,黄海渔场迎来丰收季8月2日凌晨3时,江苏赣榆区的青口港、海头港和石桥镇韩口港等地,随着港口闸门的开启和汽笛的轰鸣声,千艘渔船整齐划一地驶出港池,开启新一轮的捕捞作业。由于短时强降水等强对流天气的影响,原定于8月1日12时的出海时间推迟至8月2日凌晨,以确保渔业生产安全。青口镇...

方便面因太辣遭封杀!吃辣背后竟有这么多科学

方便面因太辣遭封杀!吃辣背后竟有这么多科学

为何我们爱辣椒?科学揭示辣味背后的秘密据全球调查显示,大约三分之一的人每天都会食用辣椒。尽管辣椒带来的刺痛感和灼烧感让人难以忍受,但人们依然对其情有独钟。然而,过量食用辣椒也可能引发严重身体不适,甚至导致急性中毒。近日,丹麦食品管理局要求韩国三养食品召回三款超辣火鸡面,原因是辣椒含量过高,可能危及消...

张雨霏霸气回怼外媒:为何从没人质疑菲尔普斯和莱德基

张雨霏霸气回怼外媒:为何从没人质疑菲尔普斯和莱德基

张雨霏霸气回怼兴奋剂质疑:中国游泳队清者自清北京时间8月2日凌晨,中国选手张雨霏在身体极度不适的情况下,顽强拼搏,成功获得女子200米蝶泳的铜牌。然而,赛后新闻发布会上,一位澳大利亚记者再次将话题引向兴奋剂质疑,暗示潘展乐的世界纪录成绩“不可能完成”。面对这一尖锐提问,张雨霏保持冷静,坚定回应:“潘...

“成语街道”将更名,地方如何更好挖掘文化资源

“成语街道”将更名,地方如何更好挖掘文化资源

邯郸“成语街道”更名风波:传统文化如何当代转化?近日,邯郸经济技术开发区社会事务局发布公告,宣布将对区域内十多条以成语命名的道路进行更名,包括“一言九鼎街”、“志在四方街”、“胡服骑射路”等。这些道路更名的原因主要是因为“不易识记”,给当地居民的生活带来了不便。2020年,邯郸市曾尝试通过赋予大街小...

“中国AI快速追赶美国,机会在产业应用”

“中国AI快速追赶美国,机会在产业应用”

京东云曹鹏:中国AI快速追赶美国,机会在产业应用在新的数字化浪潮中,中国正在不断缩小与美国的差距。7月30日,京东云峰会在上海举行。京东集团技术委员会主席、京东云事业部总裁曹鹏对观察者表示,在软件服务(SaaS)领域,中美市场还存在明显差距;但在人工智能及大模型时代,围绕技术的落地和应用,中国有机会...