比GPT-4快18倍，世界最快大模型Groq登场！每秒500 token破纪录，自研LPU是英伟达GPU 10倍-品论天涯网

声明:本文来自于微信公众号新智元（ID:AI_era），作者:新智元，授权站长之家转载发布。0ic品论天涯网

【新智元导读】卷疯了!世界最快的大模型Groq一夜之间爆火，能够每秒输出近500个token。如此神速的响应，背后全凭自研的LPU。0ic品论天涯网

一觉醒来，每秒能输出500个token的Groq模型刷屏全网。0ic品论天涯网

堪称是「世界上速度最快的LLM」!0ic品论天涯网

0ic品论天涯网

相比之下，ChatGPT-3.5每秒生成速度仅为40个token。0ic品论天涯网

有网友将其与GPT-4、Gemini对标，看看它们完成一个简单代码调试问题所需的时间。0ic品论天涯网

没想到，Groq完全碾压两者，在输出速度上比Gemini快10倍，比GPT-4快18倍。（不过就答案质量来说，Gemini更好。）0ic品论天涯网

0ic品论天涯网

最关键的是，任何人可以免费用!0ic品论天涯网

进入Groq主页，目前有两种可以自选的模型:Mixtral8x7B-32k，Llama270B-4k。0ic品论天涯网

0ic品论天涯网

地址:https://groq.com/0ic品论天涯网

与此同时，Groq API也向开发者提供，完全兼容OpenAI API。0ic品论天涯网

Mixtral8x7B SMoE可以达到480token/S，100万token价格为0.27美元。极限情况下，用Llama27B甚至能实现750token/S。0ic品论天涯网

0ic品论天涯网

目前，他们还提供100万token的免费试用。0ic品论天涯网

Groq突然爆火，背后最大的功臣不是GPU，而是自研的LPU——语言处理单元。0ic品论天涯网

单卡仅有230MB内存，2万美元一张。在LLM任务上，LPU比英伟达的GPU性能快10倍。0ic品论天涯网

0ic品论天涯网

在前段时间的基准测试中，Groq LPU推理引擎上运行的Llama270B直接刷榜，而且比顶级云提供商快18倍的LLM推理性能。0ic品论天涯网

0ic品论天涯网

网友大波演示0ic品论天涯网

Groq火箭般的生成速度，让许多人为之震惊。0ic品论天涯网

网友们纷纷放出的自己做的demo。0ic品论天涯网

0ic品论天涯网

在不到一秒钟的时间里，生成几百词的、带有引用的事实性回答。0ic品论天涯网

实际上，搜索占据了超过四分之三的处理时间，而非内容的生成!0ic品论天涯网

0ic品论天涯网

针对「创建一个简单的健身计划」同一提示，Groq与ChatGPT并排响应，速度差异。0ic品论天涯网

0ic品论天涯网

面对300多个单词的「巨型」prompt，Groq在不到一秒钟的时间里，就为一篇期刊论文创建了初步大纲和写作计划!0ic品论天涯网

0ic品论天涯网

Groq完全实现了远程实时的AI对话。在GroqInc硬件上运行Llama70B，然后在提供给Whisper，几乎没有延迟。0ic品论天涯网

0ic品论天涯网

GPU不存在了?0ic品论天涯网

Groq模型之所以能够以惊人速度响应，是因为背后公司Groq（同名）开发了独特的硬件——LPU。0ic品论天涯网

并非是，传统的GPU。0ic品论天涯网

0ic品论天涯网

简而言之，Groq自研的是一种名为张量流处理器（TSP）的新型处理单元，并将其定义为「语言处理单元」，即LPU。0ic品论天涯网

它是专为图形渲染而设计、包含数百个核心的并行处理器，能够为AI计算提供稳定的性能。0ic品论天涯网

0ic品论天涯网

论文地址:https://wow.groq.com/wp-content/uploads/2024/02/GroqISCAPaper2022_ASoftwareDefinedTensorStreamingMultiprocessorForLargeScaleMachineLearning.pdf0ic品论天涯网

具体来说，LPU的工作原理与GPU截然不同。0ic品论天涯网

它采用了时序指令集计算机（Temporal Instruction Set Computer）架构，这意味着它无需像使用高带宽存储器(HBM)的GPU那样频繁地从内存中加载数据。0ic品论天涯网

这一特点不仅有助于避免HBM短缺的问题，还能有效降低成本。0ic品论天涯网

这种设计使得每个时钟周期（every clock cycle）都能被有效利用，从而保证了稳定的延迟和吞吐量。0ic品论天涯网

在能效方面，LPU也显示出其优势。通过减少多线程管理的开销和避免核心资源的未充分利用，LPU能够实现更高的每瓦特计算性能。0ic品论天涯网

目前，Groq可支持多种用于模型推理的机器学习开发框架，包括PyTorch、TensorFlow和ONNX。但不支持使用LPU推理引擎进行ML训练。0ic品论天涯网

甚至有网友表示，「Groq的LPU在处理请求和响应方面，速度超越了英伟达的GPU」。0ic品论天涯网

0ic品论天涯网

不同于英伟达GPU需要依赖高速数据传输，Groq的LPU在其系统中没有采用高带宽存储器（HBM）。0ic品论天涯网

它使用的是SRAM，其速度比GPU所用的存储器快约20倍。0ic品论天涯网

0ic品论天涯网

鉴于AI的推理计算，相较于模型训练需要的数据量远小，Groq的LPU因此更节能。0ic品论天涯网

在执行推理任务时，它从外部内存读取的数据更少，消耗的电量也低于英伟达的GPU。0ic品论天涯网

LPU并不像GPU那样对存储速度有极高要求。0ic品论天涯网

如果在AI处理场景中采用Groq的LPU，可能就无需为英伟达GPU配置特殊的存储解决方案。0ic品论天涯网

0ic品论天涯网

Groq的创新芯片设计实现了多个TSP的无缝链接，避免了GPU集群中常见的瓶颈问题，极大地提高了可扩展性。0ic品论天涯网

这意味着随着更多LPU的加入，性能可以实现线性扩展，简化了大规模AI模型的硬件需求，使开发者能够更容易地扩展应用，而无需重构系统。0ic品论天涯网

0ic品论天涯网

Groq公司宣称，其技术能够通过其强大的芯片和软件，在推理任务中取代GPU的角色。0ic品论天涯网

网友做的具体规格对比图。0ic品论天涯网

0ic品论天涯网

这一切意味着什么?0ic品论天涯网

对开发者来说，这意味着性能可以被精确预测并优化，这一点对于实时AI应用至关重要。0ic品论天涯网

对于未来AI应用的服务而言，LPU可能会带来与GPU相比巨大的性能提升!0ic品论天涯网

考虑到A100和H100如此紧缺，对于那些初创公司拥有这样的高性能替代硬件，无疑是一个巨大的优势。0ic品论天涯网

目前，OpenAI正在向全球政府和投资者寻求7万亿美元的资金，以开发自己的芯片，解决扩展其产品时遇到算力不足的问题。0ic品论天涯网

0ic品论天涯网

2倍吞吐量，响应速度仅0.8秒0ic品论天涯网

前段时间，在ArtifialAnalysis.ai的LLM基准测试中，Groq的方案击败了8个关键性能指标。0ic品论天涯网

其中包括在延迟与吞吐量、随时间的吞吐量、总响应时间和吞吐量差异。0ic品论天涯网

在右下角的绿色象限中，Groq取得最优的成绩。0ic品论天涯网

0ic品论天涯网

来源:ArtifialAnalysis.ai0ic品论天涯网

Llama270B在Groq LPU推理引擎上效果最为出色，达到了每秒241个token的吞吐量，是其他大厂的2倍还要多。0ic品论天涯网

0ic品论天涯网

总响应时间0ic品论天涯网

Groq的响应时间也是最少的，接收100个token后输出只有0.8秒。0ic品论天涯网

0ic品论天涯网

另外，Groq已经运行了几个内部基准，可以达到每秒300个token，再次设定了全新的速度标准。0ic品论天涯网

Groq首席执行官Jonathan Ross曾表示，「Groq的存在是为了消除「富人和穷人」，并帮助人工智能社区中的每个人发展。而推理是实现这一目标的关键，因为『速度』是将开发人员的想法转化为商业解决方案和改变生APP的关键」。0ic品论天涯网

0ic品论天涯网

一块卡2万刀，内存230MB0ic品论天涯网

想必大家在前面已经注意到了，一张LPU卡仅有230MB的内存。0ic品论天涯网

0ic品论天涯网

而且，售价为2万+美元。0ic品论天涯网

0ic品论天涯网

根据The Next Platform的报道，在以上的测试中，Groq实际上使用了576个GroqChip，才实现了对Llama270B的推理。0ic品论天涯网

0ic品论天涯网

通常来说，GroqRack配备有9个节点，其中8个节点负责计算任务，剩下1个节点作为备用。但这次，9个节点全部被用于计算工作。0ic品论天涯网

0ic品论天涯网

对此网友表示，Groq LPU面临的一个关键问题是，它们完全不配备高带宽存储器（HBM），而是仅配备了一小块(230MiB)的超高速静态随机存取存储器(SRAM)，这种SRAM的速度比HBM3快20倍。0ic品论天涯网

这意味着，为了支持运行单个AI模型，你需要配置大约256个LPU，相当于4个满载的服务器机架。每个机架可以容纳8个LPU单元，每个单元中又包含8个LPU。0ic品论天涯网

相比之下，你只需要一个H200（相当于1/4个服务器机架的密度）就可以相当有效地运行这些模型。0ic品论天涯网

这种配置如果用于只需运行一个模型且有大量用户的场景下可能表现良好。但是，一旦需要同时运行多个模型，特别是需要进行大量的模型微调或使用高级别的LoRA等操作时，这种配置就不再适用。0ic品论天涯网

此外，对于需要在本地部署的情况，Groq LPU的这一配置优势也不明显，因为其主要优势在于能够集中多个用户使用同一个模型。0ic品论天涯网

0ic品论天涯网

另有网友表示，「Groq LPU似乎没有任何HBM，而且每个芯片基本上都带有少量的SRAM?也就是说他们需要大约256个芯片来运行Llama70B?」0ic品论天涯网

没想到得到了官方回应:是的，我们的LLM在数百个芯片上运行。0ic品论天涯网

0ic品论天涯网

还有人对LPU的卡的价钱提出了异议，「这难道不会让你的产品比H100贵得离谱吗」?0ic品论天涯网

0ic品论天涯网

马斯克Grok，同音不同字0ic品论天涯网

前段时间，Groq曾公开基准测试结果后，已经引来了一大波关注。0ic品论天涯网

而这次，Groq这个最新的AI模型，凭借其快速响应和可能取代GPU的新技术，又一次在社交媒体上掀起了风暴。0ic品论天涯网

不过，Groq背后的公司并非大模型时代后的新星。0ic品论天涯网

它成立于2016年，并直接注册了Groq这一名字。0ic品论天涯网

0ic品论天涯网

CEO兼联合创始人Jonathan Ross在创立Groq之前，曾是谷歌的员工。0ic品论天涯网

曾在一个20%的项目中，设计并实现了第一代TPU芯片的核心元素，这就是后来的谷歌张量处理单元（TPU）。0ic品论天涯网

随后，Ross加入了谷歌X实验室的快速评估团队（著名的「登月工厂」项目初始阶段），为谷歌母公司Alphabet设计和孵化新的Bets(单元)。0ic品论天涯网

0ic品论天涯网

或许大多数人对马斯克Grok，还有Groq模型的名字感到迷惑。0ic品论天涯网

0ic品论天涯网

其实，在劝退马斯克使用这个名字时，还有个小插曲。0ic品论天涯网

去年11月，当马斯克的同名AI模型Grok（拼写有所不同）开始受到关注时，Groq的开发团队发表了一篇博客，幽默地请马斯克另选一个名字:0ic品论天涯网

我们明白你为什么会喜欢我们的名字。你对快速的事物（如火箭、超级高铁、单字母公司名称）情有独钟，而我们的Groq LPU推理引擎正是运行LLM和其他生成式AI应用的最快方式。但我们还是得请你赶紧换个名字。0ic品论天涯网

0ic品论天涯网

不过，马斯克并未对两个模型名称的相似之处作出回应。0ic品论天涯网

参考资料:0ic品论天涯网

https://x.com/JayScambler/status/1759372542530261154?s=200ic品论天涯网

https://x.com/gabor/status/1759662691688587706?s=200ic品论天涯网

https://x.com/GroqInc/status/1759622931057934404?s=200ic品论天涯网