声明:本文来自于微信公众号硅星GenAI(ID:gh_e06235300f0d),作者:Yoky,授权站长之家转载发布。
过去一年,围绕着字节AI的几个谜团,终于都在今天被揭开了。
5 月 15 日火山引擎Force原动力大会上,字节大模型进行了全系列更名,从云雀大模型升级为豆包大模型家族,一口气发布了 9 个豆包模型,其中包括通用模型pro版、通用模型lite版以及各个领域的垂类模型,并宣布正式对外服务。
这是一次很有意思的更名,我们甚至可以把它理解为是一场“豆包的胜仗”。
而且一出手,直接“点名”了阿里百度,火山引擎总裁谭待在宣布豆包大模型价格时直言:“很遗憾阿里和百度还没有128k可精调的模型,但我期待他们的更新。”
去年在百度和阿里率先发布大模型之后,字节迟迟未动。硅星人了解到:彼时字节内部不同的部门都在进行AI探索,抖音、剪映团队各自为战,“豆包”只是基于云雀大模型开发的AI产品,并成立了新部门Flow,发力AI应用层。
在技术发展的早期,将不同的产品投向市场,交给用户检验的路子,我们并不陌生。经过了一年的时间,“豆包”从一众大模型产品中脱颖而出,也给字节大模型赚了一波“印象分”。
从 2023 年底,“豆包”用户量一路狂奔,QuestMobil2024 最新的报告中显示, 2024 年 3 月,“豆包”App月活用户为2328. 2 万,在AIGC类应用中排名第一。
此次全面更名,揭开了整个字节大模型内部战略的第一个谜团:未来可能将豆包团队作为主力军,着重培养。
而朱骏作为字节跳动战略和产品副总裁在原理大会上的亮相,似乎也回答了关键领导人的问题。
现场,字节旗下AI bot开发平台“扣子”的一位工作人员告诉我们:“目前字节AI基本在火山引擎之下,产品战略由朱骏负责”。
找到了方向也确定了领队,由此可见,字节AI是真的想“开”了。
1
豆包家族,组团应战
Grace改名为豆包的时候,字节没少被人笑话。
但就是这个接地气的名字,如今站上了字节大模型家族的C位。
“为什么叫豆包?”朱骏在现场分享道:“很多人来问我,为什么起这个名字?我认为一定要拟人化、首先确定下来产品起名的通用原则是,简单、好读、好记。”
会上,谭待宣布从云雀升级为豆包大模型家族,我们根据他们不同的功能,将 9 个模型分为了三大族群:
第一类是两个通用模型:豆包通用模型pro(专业版)及豆包通用模型lite(轻量版),专业版上下文窗口尺寸最大128K,适配场景更加通用和全面,而轻量版则更具性价比,中小企业友好,对比pro版本千tokens成本节省84%。
谭待介绍,像汽车的座舱模型、终端模型就更加适合lite版本,更轻量。通过豆包lite,汽车厂商可以在低延迟下实现对话,支持闲聊、搜索、娱乐、导航、车控等多个座舱智能助手场景,效果要比传统语音处理高达50%以上,帮助用户获得新一代的智能化驾驶体验,让汽车变得更“聪明”。
第二类是五个垂类模型:分别包括角色扮演模型(Agent)、语音合成模型、声音复刻模型(多语种的迁移复刻)、语音识别模型、文生图模型,除视频生成模型外,基本涵盖了目前模型的使用场景,且源于云雀语音大模型的技术,很明显在语音模型上更为细分。
目前基于角色扮演模型,打造出了猫箱产品,可以打造单一的角色交互,也可以多角色之间交互发生故事,类似于星野。
第三类则是工具类模型:针对于更专业的调试领域,Function Call模型和向量化模型。可根据不同的输入指令和情景,选择不同的函数和算法来执行相关任务,也是当前支持扣子的主力模型。
之所以经历了这样的分类,谭待讲道:“表面上看这是技术的分型,但是实际上我们是根据企业用户的需求进行选择,参考过去企业对于模型的调用量,这是很真实的数据。”
不仅豆包增加了多个“影分身”,字节的产品包也开始从“豆包”开始,出现了猫箱、星绘、河马爱学、即梦等等。
朱骏在经历了抖音前身Musical.ly、TikTok等多个明星产品打造,带着丰富经验的他开始操刀字节大模型的产品。
技术如何落地在产品当中?从目前的产品矩阵中,字节的大模型产品思路也逐渐浮出水面。
“和AI时代之前做产品设计比较,我的个人感受是既有共性又有很大的差异。共性是用户的核心需求还是那些,差异点是,以前是在成熟的技术上想应用,只要用同理心去理解用户的需求和使用体验,就能做出一个还不错的产品。”朱骏讲道了,在AI时代,他们设计产品时的变与不变。
比如让自己变好看点的需求,社交娱乐和教育学习的需求等等,都没有变,这些其实是用户场景的通用性,但满足用户需求的手段变了,满足产品的技术在快速演进,每隔三个月、半年都会发生很大的变化。而且它的能力改进往往不是线性的,隔一段时间可能就会出现一个跃迁。
在现场,我们对字节新的产品箱进行了测试,负责“猫箱”的产品人员告诉硅星人:“目前猫箱是一个Agent+文生图+文本能力一个综合技术能力集成的产品,但是本质上是一个UGC的平台,需要用户自己创造Agent和剧本。”
上述负责人讲道:“通过前期的用户调查,发现这是一块新的需求,因此打造了猫箱。”
朱骏也讲道:“为了让豆包在这种移动场景里交互更方便,像一个随身携带的百事通,我们很早投入了很大力度优化语音交互体验,包括基于大模型的ASR和超自然的TTS音色,尽量做到类似和一个真人对话的感受。”
1
字节AI,变“厚了”
由单点向外扩散,字节的大模型生态开始变厚。而除了模型本身和产品外,更重要的一点是谭待所强调的,这是豆包大模型第一次对外提供服务。
也就是说,豆包大模型家族全面To B了。
坦白讲,以前的字节并没有To B基因。火山引擎、飞书通过对字节本身长板能力的外化,在前几年积累了一定的客户,但是对于整个企业市场而言,它依旧很年轻。
在几天前的阿里云AI智领者峰会上,阿里云也强调大模型和千行百业的结合,这意味着火山引擎要在阿里云的优势战场上与其交锋。
但唯一的变量,就是大模型带来的全新的AI时代。火山引擎准备如何用大模型服务客户?在谭待发言的最后半段,其实放了三个大招。
第一个是低价。做企业市场,痛点永远是第一驱动力,而对于当下的企业而言,算力成本、推理成本高昂,就是最核心的痛点。在阿里云掀起了云市场的“价格战”之后,火山引擎对比了目前主流模型token价格,以低价为钩子,进入企业市场。
会上,谭待公布了豆包通用模型pro-32k和128k的价格,如图所示,在32k型号价格比行业低99.3%、128k型号比行业价格低95.8%。
“第一我们能做到,第二点是我们需要这么做。”谭待讲道。“技术上我们需要非常多的手段,比如模型结构优化的技巧、工程上从单机推理到分布式推理,再比如混合调度,本身我们自己的调度量非常大;第二就是推进生态繁荣,促进应用的爆发,市场有很大需求,但创新的风险很高,面临不确定性,我们必须把试错的成本降到非常低,市场的呼声就是更低的成本更好的模型。”
数字对于普通用户而言,或许没有那么形象。谭待举了个例子:“今天如果你通过火山引擎、通过豆包大模型 1 块钱就能获得 125 万个token,这是什么概念?《三国演义》很多人都读过,一共只有 75 万字,所以只需要 1 块钱就能处理 3 本《三国演义》的文字量。”
To B的价格战并不稀奇,只不过没想到,这次是由火山引擎先发起的。
不过谭待讲道:“To B的业务要求长期的定力,用亏损换收入是不可持续的,未来我们也会持续通过技术降低成本以降低价格。”
价格是驱动市场的因素,但更难的是,未来大模型将以什么样的形式落地行业?
火山引擎将这个连接器的角色,赋能给了火山方舟2.0。
会上,谭待宣布火山方舟进行全面升级,这是去年火山方舟面世以来第一次迭代。
在2. 0 生态里,火山引擎根据过去一年的客户服务经验,着重升级了插件生态。
“不要让用户来找我们,要让我们去找用户。”朱骏讲道。
插件是相互连接的第一道门。比如联网插件可以连接抖音头条搜索技术,实时联网信源、多模态交互等等,使用联网插件,模型一秒变“Kimi”,也在某种程度上替代了搜索的能力。
更有抖音特色的是内容插件,提供海量丰富的内容、视频理解和交互,并支持内容策略定制。内容、流量是抖音的看家本领,对于内容产品的打造是字节的一个巨大的优势,而插件就能把这样的能力对外提供服务。
RAG知识库插件,内置了大规模高性能向量检索能力,百亿级别数据可以实现毫秒级检索,也内置了豆包向量化模型,提供更好的搜索相关能力。同时RAG也能保证企业数据安全的同时,为大模型提供一个外脑,让大模型在行业场景里更加专业。
插件是连接的一种形式,重点在于火山引擎正在积极通过打造底层生态和基础能力,为行业大模型落体提供基础的土壤。
当然,除了传统行业和大型企业,火山引擎也针对开发者群体,打造了“扣子”企业专业版,开发者可免费在“扣子”平台上打造自己的Bot,无论是以纯软件的形式、外嵌飞书、微信等平台或者以API的形式连接终端硬件。
硅星人简单尝试了用扣子平台操纵机器狗,几乎只需要自然语言给到一些指令,就可以让机器狗在听到指令时“舞狮”,解决了调试时间和技术门槛。
基本上我们可以确定,在经历了一年的混乱、整理、明确的过程后,字节AI的生态版图已经出现,从基座大模型到模型产品,从垂类大模型到开发平台,字节AI或许从今日起,才算正式启程。
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】