刚刚过去的2024年是生成式AI大发展的一年,我们见证了OpenAISora的崛起,大模型服务价格的飞速下降,以及国内开源大模型的奋起直追。这全方位的快速发展让我们对下一波AI的新技术大规模应用充满了信心。对于身在AI领域的工程师和学者们来说,他们看待这一年的观点会有不同吗?新年伊始,就有人对过去一年里大模型技术的发展进行了详尽的总结。本文的作者SimonWillison是英国知名独立研究员和开放源代码创建者。
让我们看看他是怎么说的。
2024年,大型语言模型领域发生了很多事情。以下是过去12个月我们对该领域的研究成果的回顾,以及我尝试确定的关键主题和关键时刻。
2023年的总结在这里:https://simonwillison.net/2023/Dec/31/ai-in-2023/
在2024年,我们可以看到:
GPT-4垄断被全面打破
一些GPT-4级模型可以在笔记本电脑上运行
由于竞争和优化,大模型服务的价格崩盘
多模态视觉已经变得常见,音频和视频模型开始出现
语音和实时摄像头模式正从科幻小说变成现实
一个提示词做出一个APP,已经很普遍了
对最佳模型的普遍访问仅持续了短短几个月
AI“智能体”可能还有点远
评估真的很重要
AppleIntelligence很糟糕,但MLX库很出色
正在崛起的“推理”模型
目前最好的LLM来自中国,训练成本不到600万美元?
环境影响变好了,但也在变得越来越严重
合成训练数据效果很好
LLM不知何故变得更难用了
知识分布不均匀
LLM需要更好的批评
GPT-4垄断被全面打破
在2023年12月的评论中,我写了关于我们还不知道如何构建GPT-4——OpenAI提出的领先大模型当时已经有近一年的历史了,但没有其他人工智能实验室能做出更好的模型。OpenAI的做法里面有什么过人之处吗?
令人欣慰的是,这种情况在过去十二个月里完全改变了。现在有18个公司、机构在ChatbotArena排行榜上的模型排名高于2023年3月的原始GPT-4(排行榜上的GPT-4-0314)——总共有70个模型。
其中最早的是Google于2月发布的Gemini1.5Pro。除了产生GPT-4级别的输出外,它还为该领域引入了几项全新的功能——最值得注意的是其100万(后来是200万)个token输入上下文长度,以及接收视频的能力。
我当时在《ThekillerappofGeminiPro1.5isvideo》中写到了这一点,这让我在5月的GoogleI/O开幕主题演讲中作为主持人短暂露面。
Gemini1.5Pro还展示了2024年的一个关键主题:增加上下文长度。去年,大多数模型接收4096或8192个token,但Claude2.1是个值得注意的例外,它能接收20万个token。如今,每个严肃的提供商都有一个10万以上的token模型,而Google的Gemini系列最多可以接受200万个token。
更长的输入极大地增加了使用LLM可以解决的问题范围:你现在可以投入一整本书并询问有关其内容的问题。但更重要的是,你可以输入大量示例代码来帮助模型正确解决编码问题。涉及长输入的LLM用例对我来说比纯粹依赖模型权重中已经嵌入的信息的短提示更有趣。我的许多工具都是使用这种模式构建的。
回到击败GPT-4的模型:Anthropic的Claude3系列于3月推出,Claude3Opus很快成为我最喜欢的日常大模型。他们在6月进一步提高了赌注,推出了Claude3.5Sonnet——六个月后,这个模型仍然是我的最爱(尽管它在10月22日进行了重大升级,令人困惑的是保留了相同的3.5版本号。Anthropic粉丝从那时起就喜欢称它为Claude3.6)。
然后是其余的大模型。如果你今天浏览ChatbotArena排行榜(仍然是获得基于情绪的模型评估的最有用的地方),你会发现GPT-4-0314已经跌至第70位左右。拥有得分较高的模型的18家组织分别是Google、OpenAI、阿里、Anthropic、Meta、RekaAI、01AI、亚马逊、Cohere、DeepSeek、英伟达、Mistral、NexusFlow、ZhipuAI、xAI、AI21Labs、普林斯顿和腾讯。
一些GPT-4级模型可以在笔记本电脑上运行
我的个人笔记本电脑是2023年的64GBM2MacBookPro。这是一台功能强大的机器,但它也已经有近两年的历史了——而且至关重要的是,我自2023年3月第一次在电脑本地上运行LLM以来,一直在使用的是同一台笔记本电脑。
去年3月,同一台笔记本电脑几乎可以运行GPT-3类模型,现在已经运行了多个GPT-4类模型!我对此的一些注释:
Qwen2.5-Coder-32B是一款可以很好地编码的LLM,可在我的Mac上运行,11月份,我谈到了Qwen2.5-Coder-32B——Apache2.0许可模型。
我现在可以在我的笔记本电脑上运行GPT-4类模型,运行Meta的Llama3.370B(12月发布)。
这对我来说仍然很令人惊讶。我们原本会想当然地认为具有GPT-4功能和输出质量的模型需要一台数据中心级服务器,该服务器具有一个或多个价值4万美元以上的GPU。
事实上,这些模型占用了我64GB的内存空间,所以我不经常运行它们——运行的时候就不能干其他的事了。
它们能够运行的事实证明了AI领域在过去一年中取得了令人难以置信的训练和推理性能提升。事实证明,在模型效率方面,还有很多唾手可得的成果。我预计未来还会有更多。
Meta的Llama3.2模型值得特别提及。它们可能不是GPT-4级别,但在1B和3B大小下,它们的性能远远超出了参数量的水平。我使用免费的MLCChatiOS应用程序在iPhone上运行Llama3.23B,对于其微小(<2GB)的参数量来说,这是一个功能惊人的模型。尝试启动它并要求它提供“Netflix圣诞电影的情节大纲,其中一位数据记者爱上了一位当地的陶瓷师”。这是我得到的结果,每秒20个token的速度相当可观:
它平淡而普通,但我的手机现在可以向Netflix推荐平淡而普通的圣诞电影了!
由于竞争和优化
大模型服务的价格崩盘
在过去的12个月中,通过顶级托管服务的LLM运行token的成本急剧下降。
2023年12月(这是OpenAI定价页面的互联网快照),OpenAI对GPT-4收取30美元/百万输入token,对当时新推出的GPT-4Turbo收取10美元/mTok,对GPT-3.5Turbo收取1美元/mTok。
今天30美元/mTok可以让你获得OpenAI最昂贵的模型o1。GPT-4o售价2.50美元(比GPT-4便宜12倍),GPT-4omini售价0.15美元/mTok——比GPT-3.5便宜近7倍,功能强大得多。
其他模型提供商的收费甚至更低。Anthropic的Claude3Haiku(从3月开始,但仍然是他们最便宜的型号)为0.25美元/mTok。Google的Gemini1.5Flash为0.075美元/mTok,而他们的Gemini1.5Flash8B为0.0375美元/mTok——比去年的GPT-3.5Turbo便宜27倍。
我一直在我的llm定价标签下跟踪这些价格变化。
这些价格下降是由两个因素驱动的:竞争加剧和效率提高。对于每个关心LLM对环境影响的人来说,效率真的很重要。这些价格下降与运行提示所消耗的能源量直接相关。
关于大型AI数据中心建设对环境的影响,仍然有很多值得担心的地方,但许多对单个提示的能源成本的担忧已不再可信。
这里有一个有趣的简单计算:使用Google最便宜的型号Gemini1.5Flash8B(10月发布)为我个人照片库中的每6.8万张照片生成简短描述需要花费多少钱?
每张照片需要260个输入token和大约100个输出token。
260×68,000=17,680,000个输入token
17,680,000×0.0375美元/百万=0.66美元
100×68,000=6,800,000个输出token
6,800,000×0.15美元/百万=1.02美元
处理68,000张图片的总成本为1.68美元。这太便宜了,我不得不计算了三次才能确认我做对了。
这些描述有多美好?这是我从一行命令中得到的结果:
llm-mgemini-1.5-flash-8b-latestdescribe-aIMG_1825.jpeg
处理在加州科学院照的这张蝴蝶照片:
输出内容:
一个浅盘,可能是蜂鸟或蝴蝶喂食器,是红色的。盘内可见橙色水果片。喂食器中有两只蝴蝶,一只深棕色/黑色蝴蝶,带有白色/奶油色斑纹。另一只大号棕色蝴蝶,带有浅棕色、米色和黑色斑纹,包括明显的眼斑。较大的棕色蝴蝶似乎正在吃水果。
260个输入token,92个输出token。成本约为0.0024美分(不到400分之一美分)。效率的提高和价格的降低是我最喜欢的2024年趋势。我希望以极低的能源成本获得LLM的效用,看起来这就是我们得到的。
多模态视觉已经变得常见
音频和视频模型开始出现
上面的蝴蝶示例说明了2024年的另一个关键趋势:多模态LLM正在兴起。
一年前,其中最引人注目的例子是GPT-4Vision,于2023年11月在OpenAI的DevDay上发布。Google的多模态Gemini1.0于2023年12月7日发布,因此它也(刚好)进入了2023年的窗口。
2024年,几乎每个重要的模型供应商都发布了多模态模型。我们在3月看到了Anthropic的Claude3系列,4月看到了Gemini1.5Pro(图像、音频和视频),然后9月各家带来了Qwen2-VL和Mistral的Pixtral12B以及Meta的Llama3.211B和90B视觉模型。
10月份,我们从OpenAI获得了音频输入和输出,11月份,我们从HuggingFace获得了SmolVLM,12月份,我们从AmazonNova获得了图像和视频模型。
10月份,我也升级了我的LLMCLI工具,以通过附件支持多模态模型。它现在拥有一系列不同视觉模型的插件。
我认为,抱怨LLM改进速度放缓的人往往忽略了这些多模态模型的巨大进步。能够针对图像(以及音频和视频)运行提示是一种应用这些模型的迷人新方法。
语音和实时摄像头模式
正从科幻小说变成现实
新兴的音频和实时视频模式值得特别关注。
与ChatGPT对话的功能首次出现在2023年9月,但当时还没真正实现:OpenAI要用旗下的Whisper语音转文本模型和一个新的文本转语音模型(名为:tts-1)来实现与ChatGPT对话,但实际的模型还只能看到文本。
5月13日,OpenAI春季发布会推出了GPT-4o。多模态模型GPT-4o(o代表“omni”,是全能的意思)能直接“听懂”你说的每一句话——接受音频输入并输出令人难以置信的逼真语音,也不再需要TTS或STT模型在其中转化。
这个演示中的声音与斯嘉丽・约翰逊惊人地相似......在斯嘉丽投诉之后,这个声音Skye从未在任何正式产品中亮相。
不过,发布会上那个让人眼前一亮的GPT-4o高级语音功能在产品端上线的计划一再推迟,这引起了不少讨论。
当2024年8月至9月期间,ChatGPT高级语音模式最终上线时,效果真的惊艳到我了。
我经常在遛狗时使用它,更拟人的语调,让AI生成的内容听起来更生动。试验OpenAI的音频API也很有趣。
更有趣的是:高级语音模式可以模仿口音!比如,我让它“假装你是一只带着浓重俄罗斯口音的加利福尼亚棕鹈鹕,但只用西班牙语和我交谈”:
OpenAI不是唯一一家在搞多模态音频模型的公司,Google的Gemini也能接收语音输入,而且Gemini应用现在也能像ChatGPT一样说话了。亚马逊也提前宣布了他们的AmazonNova会有语音模式,不过得等到2025年第一季度才能用上。
Google在9月份发布的NotebookLM把音频输出玩出了新花样——它能生成超级逼真的“播客主持人”对话,不管你给它什么内容都行。后来他们还加入了自定义指令功能,我当然二话不说就把主持人都变成了鹈鹕:
最新的转折出现在12月(这个月可真是热闹),就是实时视频功能。ChatGPT的语音模式现在让你可以直接和模型分享摄像头画面,实时聊聊你看到的东西。GoogleGemini也推出了类似的预览功能,这次终于抢在ChatGPT前一天发布了。
这些功能才刚出来几个星期,我觉得它们的影响力还没完全显现出来。如果你还没试过,真的要体验一下!
Gemini和OpenAI都提供这些功能的API接口。OpenAI最开始用的是比较难搞的WebSocketAPI,不过在12月他们推出了新的WebRTCAPI,用起来简单多了。现在,要开发一个能和用户语音对话的网页应用已经变得超级容易了。
一个提示词做出一个APP
已经很普遍了
这在2023年就可以通过GPT-4实现了,但直到2024年它的价值才真正凸显。
我们早就知道大语言模型在写代码方面有着惊人的能力。如果你给出恰当的提示词,它们能用HTML、CSS和JavaScript(如果配置好相关环境,还能用上React这样的工具)为你构建一个完整的交互式应用程序——通常只需要一个提示词就够了。
Anthropic在发布Claude3.5Sonnet的公告中,顺带介绍了一个突破性的新功能:ClaudeArtifacts。这个功能起初并没有引起太大关注,因为它只是在公告中写了一下。
有了Artifacts,Claude可以为你写一个即时交互式应用,然后让你直接在Claude界面中使用它。
这就是我用Claude生成的一个提取网页URL的应用:
现在ClaudeArtifacts已经成为了我的依靠。很多其他团队也开发了类似的系统,例如,GitHub在10月份推出了他们的版本:GitHubSpark。MistralChat在11月份添加了一个叫Canvas的类似功能。
来自ValTown的SteveKrause基于Cerebras构建了一个版本,展示了一个每秒处理2000个token的大语言模型如何能在不到一秒的时间内对应用进行迭代更新。
到了12月,ChatbotArena团队为此类功能推出了一个全新的排行榜,用户可以用两个不同的模型构建相同的交互式应用,然后对结果进行投票。
排行榜前六位
很难找到比这更有说服力的证据,这项功能现在已经成为能在所有主流模型上有效实现的通用功能了。
我自己也在为Datasette项目开发类似的功能,目标是让用户能够通过提示来构建和迭代针对自己数据的自定义小部件和数据可视化。我还通过uv找到了一种编写一次性Python程序的类似模式。
这种提示驱动的自定义界面功能非常强大,而且构建起来也很容易(只要你搞定了浏览器沙箱的那些棘手细节),我预计在2025年会有一大波产品都会推出类似功能。
对最佳模型的普遍访问仅持续了短短几个月
今年有几个月的时间,三个最好的可用模型:GPT-4o、Claude3.5Sonnet和Gemini1.5Pro,都可以被世界上大多数人免费使用。
OpenAI在5月份向所有用户开放了GPT-4o的免费使用权限,而Claude3.5Sonnet从6月份发布起就是免费的。
这是一个重大的改变,因为在之前的一年里,免费用户主要只能使用GPT-3.5级别的模型,这导致新用户对大语言模型的实际能力形成了很不准确的认识。
不过,这个时代似乎已经结束了,而且很可能是永久性的,标志是OpenAI推出了ChatGPTPro。这项每月200美元的订阅服务是访问他们最强大的新模型(o1Pro)的唯一途径。
由于o1系列(以及“o系列”未来的模型)背后的诀窍是投入更多的计算时间来获得更好的结果,我认为那些能免费就能访问到最顶级的模型的日子,应该不会再回来了。
AI“智能体”可能还有点远
说实话,AIAgents这个词让我很头疼。它没有一个统一、清晰且被广泛认可的定义。更糟的是,用这个词的人似乎从来不承认这一点。
如果你告诉我你在开发AIAgents,这基本上等于什么都没说。除非我能读心,否则我根本不知道,AIAgents定义有几十种,你到底在造哪一种?
我看到的AIAgents开发者主要有两类:一类认为AIAgents显然就是替你做事的东西,就像旅行社那样;另一类人则在想象为大语言模型配备各种工具,让大模型能够自主驱动,执行任务。
人们还经常提到“autonomy”这个词,但同样也没说清楚是什么意思。
(几个月前我在Twitter上收集了211个定义,我还让gemini-exp-1206试着总结了一下这些定义。)
文档链接:https://lite.datasette.io/?json=https://gist.github.com/simonw/bdc7b894eedcfd54f0a2422ea8feaa80#/data/raw
不管这个词到底是什么意思,AIAgents总会给人一种“即将成真”的感觉。
撇开术语不谈,我对它们的实用性持怀疑态度,原因还是一个老问题:大语言模型很容易“轻信”,它会照单全收你告诉它的一切。
这就暴露出一个关键问题:如果一个决策辅助系统连真假都分不清,它还能发挥多大作用?无论是旅行顾问、生活助手,还是研究工具,都会因为这个缺陷而大打折扣。
最近就有一个现成的例子:就在前几天,Google搜索闹了个大乌龙。它把粉丝创作网站上一个虚构的《魔法满屋2》剧情,当成了真实电影来介绍。
提示注入就是这种“轻信”的必然结果。自2022年9月以来我们一直在讨论这个问题,但2024年在解决这个问题上,几乎没有什么进展。
我开始觉得,最流行的AIAgents概念其实依赖于通用人工智能的实现。要让一个模型能够抵抗“轻信”,这真是个艰巨的任务。
评估真的很重要
Anthropic的AmandaAskell(负责Claude性格塑造的主要工作者)说:
系统提示背后那个无聊但至关重要的秘密就是用测试驱动开发。你不是先写一个系统提示,然后再想办法测试它,而是先写好测试,然后找到一个能通过这些测试的系统提示。
2024年的经验告诉我们:在大语言模型应用领域,最重要的核心竞争力是什么?是一套完善的自动化评估系统。
为什么这么说?因为有了它,你就能:抢占先机,快人一步采用新模型,加速迭代,不断优化产品,确保功能既可靠又实用。
Vercel的MalteUbl说:
当@v0刚推出时,我们非常担心要用各种预处理和后处理的复杂操作来保护提示。
于是我们彻底转变思路,给了它充分的发挥空间。但很快就发现:没有评估标准、没有模型指导、更没有用户体验的提示,就像拿到一台没说明书的ASML机器——就算再先进,也无从下手。
我还在探索最适合自己的工作模式。评估的重要性已是共识,但“如何做好评估”这个问题却仍然缺乏系统性的指导。我一直在通过评估标签追踪这方面的进展。我现在用的“鹈鹕骑自行车”SVG基准测试,与那些成熟的评估套件相比,还有很长的路要走。
AppleIntelligence很糟糕
但MLX库很出色
去年,因为没有配备NVIDIAGPU的Linux/Windows机器,我在尝试新模型的时候遇到了不少阻碍。
从配置上看,64GB的Mac本应该是运行AI模型的理想之选——CPU和GPU共享内存的设计堪称完美。
但现实很残酷:当下的AI模型在发布时,基本都是以模型权重和开发库的形式推出,而这些几乎只适配NVIDIA的CUDA平台。
llama.cpp生态系统在这方面帮了大忙,但真正的突破是苹果的MLX库,这是一个“专为AppleSilicon设计的数组框架”。它真的很棒。
苹果的mlx-lmPython支持在我的Mac上运行各种MLX兼容的模型,性能非常出色。HuggingFace上的mlx-community提供了超过1000个已转换为必要格式的模型。
PrinceCanuma开发的优秀且发展迅速的mlx-vlm项目也把视觉大语言模型带到了AppleSilicon上。我最近用它运行了Qwen的QvQ。
虽然MLX是个改变游戏规则的东西,但苹果自己的AppleIntelligence功能大多令人失望。我本来非常期待AppleIntelligence,在我的预测中,我认为苹果绘专注于做能保护用户隐私,打造让用户清晰明了、不会误解的大语言模型应用。
现在这些功能已经推出,效果相当差。作为一个大语言模型的重度用户,我知道这些模型能做什么,而苹果的大语言模型功能只是提供了一个苍白的模仿。我们得到的是曲解新闻标题的通知摘要,以及完全没用的写作助手工具,不过emoji生成器还是挺有意思的。
正在崛起的“推理”模型
2024年最后一个季度最有趣的进展是一种新型LLM的出现,以OpenAI的o1模型为代表。
要理解这些模型,可以把它们看作是“思维链提示”技巧的延伸。这个技巧最早出现在2022年5月的论文《LargeLanguageModelsareZero-ShotReasoners》中。
这个技巧主要在说,如果你让模型在解决问题时“大声思考”,它往往能得到一些原本想不到的结果。
o1把这个过程进一步融入到了模型本身。具体细节有点模糊:o1模型会花费一些“推理token”来思考问题(用户看不到这个过程,不过ChatGPT界面会显示一个总结),然后给出最终答案。
这里最大的创新在于,它开创了一种新的扩展模型的方式:不单纯地通过增加训练时的计算量来提升模型性能,而是让模型在推理时投入更多计算资源来解决更难的问题。
o1的续作o3在12月20日发布,o3在ARC-AGI基准测试上取得了惊人成绩。不过,从o3的巨额推理成本来看,它可能花掉了超过100万美元的计算成本!
o3预计将在1月份推出。但我觉得很少有人的实际问题需要这么大的计算开销,o3也标志着LLM架构在处理复杂问题时迈出了实质性的一步。
OpenAI并不是这个领域的“独角戏”。Google在12月19日也推出了他们的第一个类似产品:gemini-2.0-flash-thinking-exp。
阿里巴巴的Qwen团队在11月28日发布了他们的QwQ模型,我在自己电脑上就能跑。他们在12月24日又推出了一个叫QvQ的视觉推理模型,我也在本地运行过。
DeepSeek在11月20日通过他们的聊天界面提供了DeepSeek-R1-Lite-Preview模型试用。
要深入了解推理扩展,我推荐看看ArvindNarayanan和SayashKapoor写的《IsAIprogressslowingdown?》这篇文章。
Anthropic和Meta还没什么动静,不过我赌他们肯定也在开发自己的推理扩展模型。Meta在12月发表了一篇相关论文《TrainingLargeLanguageModelstoReasoninaContinuousLatentSpace》。
目前最好的LLM来自中国
训练成本不到600万美元?
不完全是,但差不多是。这的确是个吸引眼球的好标题。
今年年底的大新闻是DeepSeekv3的发布,它在圣诞节当天连README文件都没有就被放到了HuggingFace上,第二天就发布了文档和论文。
DeepSeekv3是一个庞大的685B参数模型,是目前最大的公开授权模型之一,比Meta公司最大的Llama系列模型Llama3.1405B还要大得多。
基准测试结果表明,它与Claude3.5Sonnet不相上下。Vibe基准测试(又称聊天机器人竞技场)目前将其排在第7位,仅次于Gemini2.0和OpenAI4o/o1型号。这是迄今为止排名最高的公开授权模型。
DeepSeekv3真正令人印象深刻的是其训练成本。该模型在2,788,000个H800GPU时内完成了训练,估计成本为5,576,000美元。Llama3.1405B训练了30,840,000个GPU小时,是DeepSeekv3的11倍,但模型的基准性能却略逊一筹。
美国对中国出口GPU的规定似乎激发了一些非常有效的训练优化。
环境影响得到改善
模型(包括托管模型和我可以在本地运行的模型)效率的提高带来了一个可喜的结果,那就是在过去几年中,运行Prompt的能耗和对环境的影响大大降低了。
与GPT-3时代相比,OpenAI自己的提示词器收费也降低了100倍。我有可靠消息称,GoogleGemini和AmazonNova(两家最便宜的模型提供商)都没有亏本运行提示词器。
我认为这意味着,作为个人用户,我们完全不必为绝大多数提示词消耗的能源感到内疚。与在街上开车,甚至在YouTube上看视频相比,其影响可能微乎其微。
同样,训练也是如此。DeepSeekv3的训练费用不到600万美元,这是一个非常好的迹象,表明训练成本可以而且应该继续下降。
对于效率较低的模型,我认为将其能源使用量与商业航班进行比较是非常有用的。最大的Llama3模型的成本约等于从纽约到伦敦的一位数满载乘客航班。这当然不是一无是处,但一旦经过训练,该模型就可以供数百万人使用,而无需额外的训练成本。
环境影响也变得越来越严重
更大的问题在于,未来这些模式所需的基础设施建设将面临巨大的竞争压力。
Google、Meta、微软和亚马逊等公司都在斥资数十亿美元建设新的数据中心,这对电网和环境造成了巨大影响。甚至还有人说要建立新的核电站,但这需要几十年的时间。
这些基础设施有必要吗?DeepSeekv3的600万美元训练成本和LLM价格的持续暴跌可能暗示了这一点。但是,你是否希望自己成为一名大型科技公司的高管,在几年后证明自己的观点是错误的情况下,仍然坚持不建设这些基础设施呢?
一个有趣的比较点是,19世纪铁路在世界各地的铺设方式。修建这些铁路需要巨额投资,并对环境造成巨大影响,而且修建的许多线路被证明是不必要的,有时不同公司的多条线路服务于完全相同的路线。
由此产生的泡沫导致了数次金融崩溃,参见维基百科中的1873年恐慌、1893年恐慌、1901年恐慌和英国的铁路狂热。它们给我们留下了大量有用的基础设施,也造成了大量破产和环境破坏。
“泔水”之年
2024年是“泔水”一词成为艺术术语的一年。我在5月份写过一篇文章,对@deepfates的这条推文进行了扩展:
实时观察“泔水”如何成为一个艺术术语。就像“垃圾邮件”成为不受欢迎电子邮件的专有名词一样,“泔水”也将作为人工智能生成的不受欢迎内容的专有名词被载入字典。
我把这个定义稍微扩展了一下:
“泔水”指的是人工智能生成的未经请求和审查的内容。
最后,《卫报》和《纽约时报》都引用了我关于泔水的论述。
以下是我在《纽约时报》上说的话:
社会需要简明扼要的方式来谈论现代人工智能,无论是正面的还是负面的。“忽略那封邮件,它是垃圾邮件”和“忽略那篇文章,它是泔水”都是有用的教训。
我喜欢“泔水”这个词,因为它简明扼要地概括了我们不应该使用生成式AI的一种方式。
“泔水”甚至还入选了2024年牛津年度词汇,但最终输给了“脑腐”。
合成训练数据很有效
“模型崩溃”的概念,似乎出人意料地在公众意识中根深蒂固。2023年5月,《TheCurseofRecursion:TrainingonGeneratedDataMakesModelsForget》一文首次描述了这一现象。2024年7月,《自然》杂志以更醒目的标题重复了这一现象:在递归生成的数据上进行训练时,人工智能模型会崩溃。
这个想法很有诱惑力:随着人工智能生成的“泔水”充斥互联网,模型本身也会退化,将以一种导致其不可避免灭亡的方式吸收自己的输出。
这显然没有发生。相反,我们看到人工智能实验室越来越多地在合成内容上进行训练—有意识地创建人工数据,以帮助引导他们的模型走向正确的道路。
我所见过的对此最好的描述之一来自Phi-4技术报告,其中包括以下内容:
合成数据作为预训练的重要组成部分正变得越来越普遍,Phi系列模型也一直强调合成数据的重要性。与其说合成数据是有机数据的廉价替代品,不如说合成数据与有机数据相比有几个直接优势。
结构化学习和逐步学习。在有机数据集中,token之间的关系往往复杂而间接。可能需要许多推理步骤才能将当前标记与下一个token联系起来,这使得模型很难有效地学习下一个token的预测。相比之下,语言模型生成的每个token顾名思义都是由前面的标记预测的,这使得模型更容易遵循由此产生的推理模式。
另一种常见的技术是使用较大的模型为较小、较便宜的模型创建训练数据,越来越多的实验室都在使用这种技巧。DeepSeekv3使用了DeepSeek-R1创建的“推理”数据。Meta的Llama3.370B微调使用了超过2500万个合成生成的示例。
精心设计进入LLM的训练数据似乎是创建这些模型的关键所在。从网络上抓取全部数据并不加区分地将其投入训练运行的时代已经一去不复返了。
LLM不知何故变得更难用了
我一直在强调,LLM是强大的用户工具,它们是伪装成菜刀的电锯。它们看起来简单易用,给聊天机器人输入信息能有多难?但实际上,要充分利用它们并避免它们的许多陷阱,你需要有深厚的理解力和丰富的经验。
如果说在2024年,这个问题变得更加严重的话,好消息是我们已经建立了可以用人类语言与之对话的计算机系统,它们会回答你的问题,而且通常都能答对。这取决于问题的内容、提问的方式,以及问题是否准确地反映在未记录的秘密训练集中。
可用系统的数量激增。不同的系统有不同的工具,它们可以用来解决你的问题,比如Python、JavaScript、网络搜索、图像生成,甚至数据库查询。所以你最好了解这些工具是什么,它们能做什么,以及如何判断LLM是否使用了它们。
你知道ChatGPT现在有两种完全不同的Python运行方式吗?
想要构建一个与外部API对话的Claude工件?你最好先了解一下CSP和CORSHTTP标头。
模型可能变得更强大了,但大多数限制却没有改变。OpenAI的o1也许终于能大部分计算“Strawberry”中的R,但它的能力仍然受限于其作为LLM的性质,以及它所运行的线束对它的限制。O1不能进行网络搜索,也不能使用CodeInterpreter,但GPT-4o却可以——两者都在同一个ChatGPTUI中。(如果你要求,o1会假装做这些事,这是2023年初URL幻觉bug的回归)。
我们对此有何对策?几乎没有。
大多数用户都被扔进了深水区。默认的LLM聊天UI就像是把全新的电脑用户扔进Linux终端,然后指望他们自己能搞定一切。
与此同时,终端用户对这些设备的工作原理和功能所形成的不准确的心理模型也越来越常见。我见过很多这样的例子:有人试图用ChatGPT的截图来赢得争论—这本来就是一个可笑的命题,因为这些模型本来就不可靠,再加上只要你正确提示,就能让它们说任何话。
这也有一个反面:很多见多识广的人已经完全放弃了LLM,因为他们不明白怎么会有人能从一个有如此多缺陷的工具中获益。要想最大限度地利用LLM,关键在于学会如何使用这种既不可靠又强大无比的技术。这是一项绝对不显而易见的技能!
在这里,有用的教育内容大有可为,但我们需要做得更好,而不是将其全部外包给那些在Twitter上狂轰滥炸的人工智能骗子。
知识分布不均匀
现在,大多数人都听说过ChatGPT。有多少人听说过Claude?
积极关注这些内容的人与99%不关注这些内容的人之间存在着巨大的知识鸿沟。
变革的速度也无济于事。就在上个月,我们看到实时界面的普及,你可以将手机摄像头对准某样东西,然后用声音谈论它......还可以选择让它假装成圣诞老人。大多数自我认证的nerd甚至还没试过这个。
鉴于这项技术对社会的持续及潜在影响,我不认为这种差距的存在是健康的。我希望看到更多的努力来改善这种状况。
LLM需要更好的批评
很多人都非常讨厌这种东西。在我混迹的一些地方(Mastodon、Bluesky、Lobste.rs,甚至偶尔在HackerNews),即使提出“LLM很有用”,也足以引发一场大战。
我明白不喜欢这项技术的理由有很多:环境影响、训练数据(缺乏)道德、缺乏可靠性、负面应用、对人们工作的潜在影响。
LLM绝对值得批评。我们需要对这些问题进行讨论,找到缓解这些问题的方法,帮助人们学会如何负责任地使用这些工具,使其正面应用大于负面影响。
我喜欢对这些东西持怀疑态度的人。两年多来,炒作的声音震耳欲聋,大量的“假冒伪劣商品”和错误信息充斥其中。很多错误的决定都是在这种炒作的基础上做出的。敢于批评是一种美德。
如果我们想让有决策权的人在如何应用这些工具方面做出正确的决定,我们首先需要承认确实有好的应用,然后帮助解释如何将这些应用付诸实践,同时避免许多非实用性的陷阱。
(如果你仍然认为根本没有什么好的应用,那我就不知道你为什么能读完这篇文章了!)。
我认为,告诉人们整个领域都是环境灾难性的剽窃机器,不断地胡编乱造,无论这代表了多少真理,都是对这些人的伤害。这里有真正的价值,但实现这种价值并不直观,需要指导。我们这些了解这些东西的人有责任帮助其他人弄明白。
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】