当前位置:首页 > 科技 > 正文内容

4轮暴训,Llama 7B击败GPT-4,Meta等让LLM“分饰三角”自评自进化

admin1年前 (2024-08-07)科技122

元奖励语言模型:AI自我评价的新突破

4轮暴训,Llama 7B击败GPT-4,Meta等让LLM“分饰三角”自评自进化

近日,Meta、UC伯克利和NYU联合发布了一项关于元奖励语言模型的研究,为人工智能的自我改进提供了新思路。这项研究旨在让AI模型不仅能作为参与者(actor)从反馈中优化,还能作为评判者(judge)自我评价,进而提升其对齐能力。

传统的语言模型对数据的需求巨大,特别是在RLHF和DPO等对齐阶段,这不仅增加了成本,还可能导致模型性能受限于人类水平。今年1月,Meta和NYU的研究团队首次提出了语言模型的自我奖励机制,通过LLM-as-a-Judge的方式,使模型能够在训练过程中进行自我反馈,无需依赖人类标注者。

最新研究表明,为了实现更高效的自我改进,需要增加一个“元奖励”步骤,即让模型评估自身的评估能力。尽管听起来复杂,但实际上这一方法在实验中显示了显著的效果。例如,Llama-3-8B-Instruct在AlpacaEval 2上的胜率从22.9%提高到39.4%,超过了GPT-4的表现;在Arena-Hard上的表现也从20.6%提升至29.1%。

这项研究进一步验证了模型的自我提升可以独立于人类监督。Meta科学家Yann LeCun对此表示高度认可,并认为这是AI领域的一项重要进展。

这项研究的成果不仅为AI模型的自我改进提供了新的理论支持,也为减少对人类监督的依赖开辟了新的道路。未来,随着技术的不断发展,元奖励语言模型有望在更多领域展现其潜力。

扫描二维码推送至手机访问。

版权声明:本文由文雀网发布,如需转载请注明出处。

本文链接:https://www.360wq.com/index.php/post/383.html

分享给朋友:

“4轮暴训,Llama 7B击败GPT-4,Meta等让LLM“分饰三角”自评自进化” 的相关文章

第37届大众电影百花奖揭晓,张艺谋获最佳导演奖

第37届大众电影百花奖揭晓,张艺谋获最佳导演奖

第37届大众电影百花奖揭晓,《志愿军:雄兵出击》斩获最佳影片8月4日,第37届大众电影百花奖颁奖典礼在成都隆重举行。来自全国各地的101位观众评委共同决定了9项荣誉的最终归属。本次颁奖典礼由电影频道主持人蓝羽携手电影人黄轩共同主持。本届百花奖的最大赢家当属《志愿军:雄兵出击》,该片凭借其深刻的主题和...

佩戴的银饰变黑,说明身体在排毒?真相是......

佩戴的银饰变黑,说明身体在排毒?真相是......

银手镯变黑真的是排毒吗?近日,有关“佩戴银手镯变黑是因为吸出了身体内的毒素”的说法再次引起公众关注。许多人受电视剧中银针试毒情节的影响,认为银饰品具有排毒功能。然而,科学解释告诉我们,这一观点并不准确。银饰品变黑的主要原因是银与空气中的氧气和人体分泌物中的硫化物发生化学反应,生成了黑色的氧化银或硫化...

人均骑行不到12分钟,共享单车开启10分钟计费“补血”

人均骑行不到12分钟,共享单车开启10分钟计费“补血”

共享单车进入10分钟计费时代,用户成本增加引热议近日,共享单车行业迎来重大调整,哈啰单车、滴滴青桔等平台纷纷实行10分钟计费制度,引发了广泛争议。此次调价使得用户在短途骑行中的成本显著增加,不少市民对此表示担忧。据悉,此次调价主要针对平日的骑行费用,前10分钟收费1.5元,超过10分钟后按1元/15...

疏通下水道发生中毒事故,甘肃玛曲4名工人死亡

疏通下水道发生中毒事故,甘肃玛曲4名工人死亡

疏通下水道发生中毒事故,甘肃玛曲4名工人不幸遇难近日,甘肃甘南州玛曲县银诺农畜产品综合市场内发生一起令人痛心的中毒事故,导致4名工人不幸遇难。据当地初步核查,该事故发生在2024年8月1日15时许,火锅店在进行提升改造施工过程中,餐厅老板和一名员工在疏通化粪池时遇险。随后,一名外卖员和一名快递员发现...

名校参观一“票”难求?揭开抢票软件背后的犯罪产业链

名校参观一“票”难求?揭开抢票软件背后的犯罪产业链

黑色产业链曝光:高校参观票竟成“紧俏商品”,黑客、黄牛疯狂牟利近日,北京市海淀区人民检察院公布了一起关于倒卖高校参观票的黑色犯罪产业链案件,引发了社会广泛关注。随着暑期的到来,越来越多的家长选择带孩子前往北京、上海等地的名校参观,然而,火爆的需求使得一些名校的参观预约出现了“一票难求”的现象。在这种...

国际奥委会和阿里国际站合作:用AI全面支持运动员创业

国际奥委会和阿里国际站合作:用AI全面支持运动员创业

国际奥委会与阿里国际站携手助力全球运动员创业北京时间7月31日晚,国际奥委会与阿里国际站在巴黎共同宣布,双方将全面支持全球运动员创业。这一合作旨在通过阿里国际站的电商平台,为运动员提供电商经营、全球贸易等多领域的创业培训计划,尤其是帮助他们更好地运用最先进的AI工具进行全球采购。国际奥委会主席巴赫表...