LLM应该改名吗?你怎么看。在AI领域,几乎每个人都在谈论大型语言模型,其英文全称为LargeLanguageModels,简写为LLM。因为LLM中有“Language”一词,因此,大家默认这种技术和语言密切相关。然而,知名AI大牛AndrejKarpathy却对此有着独特的见解:
“大型语言模型(LLM)名字虽然带有语言二字,但它们其实与语言关系不大,这只是历史问题,更确切的名字应该是自回归Transformer或者其他。
LLM更多是一种统计建模的通用技术,它们主要通过自回归Transformer来模拟token流,而这些token可以代表文本、图片、音频、动作选择、甚至是分子等任何东西。因此,只要能将问题转化为模拟一系列离散token的流程,理论上都可以应用LLM来解决。
实际上,随着大型语言模型技术栈的日益成熟,我们可能会看到越来越多的问题被纳入这种建模范式。也就是说,问题固定在使用LLM进行『下一个token的预测』,只是每个领域中token的用途和含义有所不同。
如果核心问题真的变成了预测下一个token,那么深度学习框架(例如PyTorch及其同类框架,因为PyTorch提供了过于广泛的操作和层的可配置性而显得过于普通)也可能过于普通,无法满足大多数问题随时间推移的需要。如果80%的问题只需要使用LLM来解决,那么成千上万个可以随意重新配置的操作和层又有什么用呢?我认为这不是真的,但我认为它只对了一半。”
Karpathy的这番言论引来很多人围观,浏览量高达20多万。
Karpathy曾是OpenAI的早期成员之一,之后加入特斯拉领导其自动驾驶的计算机视觉团队。之后他又回到过OpenAI,领导着一个专注提升ChatGPT的GPT-4的小团队。今年7月,他宣布创立了一家名为EurekaLabs的AI+教育公司。
作为前排吃瓜群众的马斯克非常赞同的表示:这绝对需要一个新名字,“多模态LLM(MultimodalLargeLanguageModels)”是一个特别愚蠢的名字,因为第一个词与第三个词相矛盾!
机器学习和AI研究员、畅销书《Python机器学习》作者SebastianRaschka也非常赞同,他表示:如果将LLM改为自回归Transformers或者其他名字的话,那Mamba、Jamba、Samba可以申请加入吗。不管怎样,还是非常赞同Karpathy观点。
不过,来自OpenAI的研究者CliveChan却表示:另一方面,也许所有可以用自回归方式表达的东西都可以被视为一种语言。任何事物都可以被转化为一串token流,因此从这个角度看,一切都是语言!
对于这种说法,Karpathy回复到:当然,你可以想象说话纹理、说话分子等等。但我所观察到的是,语言这个词误导了人们认为大型语言模型(LLM)只限于文本应用。
在Meta从事PyTorch研究的HoraceHe表示:确实,深度学习框架可能在某些方面过于普遍。尽管如此,即便只是针对大型语言模型(LLM),实际运行的操作也有很大的变化。这包括新的注意力操作、混合专家模型(MoE)、不同变体的激活检查点、不同的位置嵌入等。
在HoraceHe看来,这些技术的多样性说明,即使是在专注于LLM的应用中,深度学习框架的通用性也是有其必要性的,以适应不断发展和变化的模型需求。
“像LLMs、GPT和RLHF这样的术语现在变成主流,这实在有些奇怪。通常,一个领域向更广泛的世界介绍自己时并不会这样做(在我看来,这也是有些机构品牌推广失败的原因)。”有人发表了这样的观点。
这种情况反映了复杂技术术语的普及可能并不总能有效地代表其真实的应用和影响,有时甚至可能导致公众理解上的困难。
还有网友认为,“Large”这个词用的也不好,因为今天的“大”在未来会显得“小”。
“同样的情况也适用于电话和计算机领域,看起来最初的术语往往会保持使用。”
这不由得让我们想起AI领域各种命名方式,早期的名称往往因为先入为主的效应而被广泛沿用,即使随着技术的演进,这些名称可能已不再准确描述其功能了。
参考链接:https://x.com/karpathy/status/1835024197506187617
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】