人工智能

新版Llama 3 70B反超405B Meta开卷后训练 Google马斯克都来抢镜

字号+作者:量子位 来源:量子位 2024-12-07 16:51 评论(创建话题) 收藏成功收藏本文

OpenAI“双12”刚进行到第二天,就把大模型圈搅得好不热闹!一边是Meta没预告就发布了Llama3.3,70B版本就能实现以前405B的性能。另一边Google的Gemini也上'...

OpenAI“双12”刚进行到第二天,就把大模型圈搅得好不热闹!一边是Meta没预告就发布了Llama3.3,70B版本就能实现以前405B的性能。CjJ品论天涯网


CjJ品论天涯网

另一边Google的Gemini也上线了新的实验版模型,再一次登上大模型竞技场榜首。CjJ品论天涯网


CjJ品论天涯网

有网友感叹,o1、Llama3.3和新版Gemini接连发布,马斯克的Grok3也要来,还有GPT-4.5初露端倪……这简直是最棒的一个圣诞季。CjJ品论天涯网


CjJ品论天涯网

Llama3.3:70B实现405B效果CjJ品论天涯网

Llama3.3目前只有70B一个型号。CjJ品论天涯网

但在指令遵循(IFEval)、数学(MATH)、推理(GPQADiamond)等领域,水平都超过了七月份发布的Llama3.1405BCjJ品论天涯网

在语言(MMLU)、代码(HumanEval)、长文本和多语种能力上,成绩也和Llama3.1405B比较接近。CjJ品论天涯网

而在工具使用(BFCL)上,和405B的差距则显得稍大一些。CjJ品论天涯网


CjJ品论天涯网

不过,Llama3.3的使用成本要比Llama3.1405B低得多CjJ品论天涯网

虽然Llama本身是免费的,但是各个大模型平台的服务价格也可以作为衡量成本的一个参考。CjJ品论天涯网

在Meta合作的平台当中,Llama3.3最便宜的价格是0.1/0.4美元每百万输入/输出Token。CjJ品论天涯网

而Llama3.1405B,则是1美元每百万输入token,是Llama3.3的10倍,输出token为1.8美元,是Llama3.3的4.5倍。CjJ品论天涯网


CjJ品论天涯网

Meta生成式AI团队领导者AhmadAl-Dahle表示,Llama3.3能用70B实现405B的效果,主要是“运用了后训练技术的最新进展”,并点名其中包括在线偏好优化(onlinepreferenceoptimization)。CjJ品论天涯网


CjJ品论天涯网

MetaAI官方账号也提到,Llama3.3的进步归功于新的对齐过程和在线强化学习技术的进步。CjJ品论天涯网


CjJ品论天涯网

目前,Llama3.3的模型权重已在官网和HuggingFace上开放下载。CjJ品论天涯网


CjJ品论天涯网

Gemini迎来周岁生日CjJ品论天涯网

Gemini1206上线的这天,刚好是Gemini的一周岁生日。CjJ品论天涯网

不过,从节奏和以日期命名的方式来看,Gemini更像是一次例行更新(上一个版本是1121)。CjJ品论天涯网

当然成绩还是很不错的,直接登上了lmsys大模型竞技场的榜首CjJ品论天涯网


CjJ品论天涯网

而且不只是总成绩夺冠,困难提示词、代码、数学、创意写作等各个单项排名也都是第一CjJ品论天涯网


CjJ品论天涯网

实际上,Gemini此前有个1114版本,也当了一周的“榜一大哥”,后来被更新的GPT-4o给比了下去。CjJ品论天涯网

现在的最新版本,又让Gemini重新回到了榜单上的王座。CjJ品论天涯网


CjJ品论天涯网

此外,GoogleAIStudio产品负责人(原OpenAI开发者社区主管)Logan介绍,Gemini1206拥有2百万token的上下文窗口,目前可通过GoogleAIStudio和GeminiAPI免费使用。CjJ品论天涯网


CjJ品论天涯网

Google首席科学家JeffDean表示,取得这样的成绩是对Gemini生日最好的庆祝方式。CjJ品论天涯网


CjJ品论天涯网

不过也有网友给Google泼了盆冷水,表示o1还没出现在这个榜单上,而且GPT-4.5就要来了,Google第一的位置恐怕很快又会被OpenAI夺走。CjJ品论天涯网


CjJ品论天涯网

OneMoreThingCjJ品论天涯网

除了Google和Meta,马斯克xAI也被盛传即将发布Grok3。CjJ品论天涯网

有网友发现,正在测试的Grok2mini消失了,认为这是要发Grok3的征兆。CjJ品论天涯网


CjJ品论天涯网

除了对Grok3的猜测,还有一条更确定的消息——此前要充会员才能用的Grok,现在可以免费用了CjJ品论天涯网

不过免费用户用量比较有限,每两小时只能处理10条消息,而图片分析一天只能处理三张。CjJ品论天涯网


CjJ品论天涯网

有意思的是,我们试了试询问Grok自己,它也表示Grok3计划在这个月上线。CjJ品论天涯网

但抓马的是,点进后面引用的消息源,发现这名博主也是问Grok之后发的帖子……CjJ品论天涯网


CjJ品论天涯网

那么,在这个发布密集的十二月,你最钟意或者最期待哪一款产品呢?CjJ品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]