声明:本文来自微信公众号“光子星球”(ID:TMTweb),作者:王 潘 吴坤谚,授权站长之家转载发布。
生成式AI走向大众市场的关键时期已经到来。
2月16日,OpenAI推出了堪称“王炸”的文生视频大模型Sora,AI军备竞赛的战场加速向多模态转移,这意味着相比寻常LLM更为丰富的场景与机会。此外,2024年将成为AI硬件元年的共识也基本形成,业界对AI在智能终端的应用寄予厚望,将其视为提振消费电子市场的关键。
智能手机与PC两大终端的战况愈发激烈,而玩家们眼中的终局似乎与通用模型基座并无二致——厂商忙不迭搞起大模型与OS,互不兼容的同时却又在功能上高度趋同,将行业引向近在咫尺的红海。
与之相比,未被大公司注意到的细分场景反而成为创业者的乐土。当AI与硬件实现耦合的场景愈发丰富,AI终于开始摆脱生产力工具的固有印象,其技术落地的场景愈发贴近消费语境。如曾在去年为业内热议的Humane的AI Pin和Rabbit的R1,均试图跳脱出既往智能终端的束缚,从而更贴近我们的生活。
正因如此,此时我们更应该关注这些未被商业竞争所桎梏的创新,兴许能为国内大模型的商业落地提供更多视角。
我们注意到,继AI Pin和R1之后,来自新加坡的AR初创公司Brilliant Labs刚刚推出一款嵌入多模态AI功能的AR智能眼镜“Frame”,再次试图将AI从我们熟知的智能终端中解放出来。
图注:Frame在外观上与普通眼镜几乎无异,其设计有意致敬历史上具有开创性的人物,例如约翰·列侬、史蒂夫·乔布斯等
Frame看起来是一副平平无奇的框架眼镜,镜架中央搭载了微型摄像头,以及右镜头嵌入一个640x400像素的微型OLED显示屏。AI大模型的能力主要依赖于云端和无线接入,由Brilliant Labs推出的AI Agent “Noa”统筹,能够进行现实世界的视觉处理、创新图像生成以及实时语音识别和翻译。
从工程体验看来,Frame有些类似于是谷歌眼镜与Ai Pin的结合。
在Brilliant Labs看来,AIGC为我们打开了新的数字世界大门,这个崭新的世界需要更加自然地融入人们所见和体验的物理世界,而Frame应运而生。
AI硬件,手机的延伸
在智能手机的绝对优势面前,智能硬件一直像是一只长期盘旋在周围的老鹰,时刻准备着啄出一个缺口。现在它们距离成功已经很近了。
回顾AIGC浪潮前的智能硬件,不难发现它们并没有不可替代性,甚至难言创造了新的使用场景。就像10余年前的智能眼镜、8年前的智能音箱、3年前的XR头盔,它们都曾经历过短暂的高光时刻,燃烧自己为市场一点点建立消费认知。
说白了,自智能手机问世起至今,集成了越来越多功能的手机也在变得越来越难以替代,试图创造下一个手机来彻底取代这个消费品的尝试大多都失败了。因而,我们也在AI硬件创业中清晰地看到路线转换——硬件不再试图取代手机,而是成为手机的延伸。
交互方式的革新是生成式AI为硬件带来的全新变量。以Frame为例,作为市场上首款多模态AI眼镜,Frame提供一个无需屏幕即可获取AI能力的交互方式,交互图形界面会呈现在右镜片的OLED显示屏中,我们可以使用语音、点触以及眼球转动与之交互。
如此一来,新的AI硬件与此前的手机便不会构成“换机”式的替代关系,甚至用户会为了缩短获取AI能力的链路,从而购买硬件来配合手机使用。这是新一代AI硬件之所以在商业模式上能成立的根本逻辑。
我们了解到,在这款产品在设计之初,Brilliant Labs便为其立下了重构个人数字生活的目标,尤其是重构我们人类与周身无数电子设备的关系。
另一方面,智能手机这个铁桶阵被啄出缺口的原因还在于智能手机作为终端载体的成熟程度,载体的成熟意味着更高的落地要求。典型表现便是这样的集成智能终端刚需运行端侧大模型的能力,否则便与通过App获取云端模型能力的“前辈”们找不出区别,也就难以驱动新的换机周期。
目前,端侧大模型能力展现必备的NPU还处于集中研发期,可靠的产品方案出现之前,这无异于为其他AI硬件提供了一个突破口。
Brilliant Labs选择将自己积累的光学与AR技术为突破的尖刀,Brilliant Labs创始人、CEO Bobak Tavangar在既往AR眼镜的基础上引入了一款类似于《钢铁侠》中JARVIS的AI助手“Noa”。更重要的是,Brilliant Labs还为Frame打造了一个可以同时运行多个大模型的CPU。
在全天候AI助手Noa的统筹下,Frame可以调用不同云端模型能力处理不同任务,甚至同时组织多个AI系统一起完成更高级的任务,比如我们对着一本全英文的菜单,让Noa为我们推荐一个口味合适的搭配。
更值一提的是,智能手机厂商匆匆踏入AI大模型赛道时,他们眼中的商业化终局是打造出下一时代的集成式硬件入口,即一个AI OS。这导向了当下大模型能力和硬件互斥的情况,将竞争拉向模型底层。
Frame选择以开源方式接入GPT等在内的模型能力,“让上帝的归上帝,让凯撒的归凯撒”,无需陷入模型层的竞争泥潭。Bobak称,“我们创业的最初灵感便来自于丰富的开源生态,唯有开源才能让一个产品接受全人类、全世界的体验和检视,更多创造性的火花也迸发于此。”
比手机更深入生活
回看Frame的产品形态,与我们熟悉的虚拟现实设备动辄重达上百克不同的是,其在搭载了电池以及上述元器件的情况下,重量仅40克(1.4盎司)。如此轻巧、便携、简约的设计隐约透露出一股“苹果味儿”。
果不其然,Bobak本就出自苹果。我们了解到,在他任职于苹果期间,他曾负责多个硬件项目的设计工作。
Bobak从苹果身上学到的最重要的设计理念是“以人为中心”,追求贴合用户的实际使用语境,而工程、销售、供应链等环节都只能“适配”于这个中心理念。“好的设计精准匹配某些群体或场景,伟大的设计从开始便向往匹配所有人”, Bobak的观点与其产品一般,强调普适性。
我们不妨审视苹果推出的新品,无论是无线耳机AirMax亦或是Vision Pro,看着都不太像乔布斯设计出的东西。同一家公司因为掌舵者的变化使得产品追求不能一以贯之,可见产品理念在多方因素下的脆弱与可贵。
图注:跳脱出围绕沙发区域的娱乐类AR产品,Frame更根植于人们日常的使用场景
或因如此,Frame天然是一个极其贴近消费语境的产品。除设计语言外,它对消费场景的贴合还在于其取代了手机屏幕的AR显示屏,让我们使用AI能力时不需要掏出手机打开App,极大简化了流程,缩短了链路。
马斯克与英伟达AI科学家Jim Fan所提出的“具身智能”或者说“环境智能”,便是让AI的物理存在感降低,只在我们需要的时候出现。
对于面向大众消费群体的硬件而言,其使用场景必然极其生活化。人们追求使用上的“无感体验”,要求沉浸感以及更多的交互能在无意识下发生。如今,手机这个集成最多日常功能的智能终端,俨然成为我们获取某项服务的一种仪式道具,就像上世纪的互联网需要调制解调器与电话线。
为了进一步加强AI赋予硬件的交互革新,Brilliant Labs与时下领跑AI搜索赛道的 Perplexity展开深度合作,显著提升了AIGC内容的可溯源度。
Perplexity由出身于OpenAI的Aravind Srinivas于2022年8月创立,目前估值5亿美元。其问答引擎可以说是对传统搜索引擎的一次升级,在理解用户提问的基础上将问题解析为更精细化的数个搜索指令,最终由模型阅读并筛选出内容以输出结果。
当我们向Perplexity提问,最终呈现的结果是一个不亚于百科的全面回答,不同信息的出处均可溯源,甚至侧边栏会呈现与主题相关的图片与视频。简单来说,Perplexity所做的是让搜索引擎“更懂你”,这是对搜索颗粒度的进一步细化。
另一方面,Perplexity也为生成式AI增添了一份时效性与准确性,这直指模型能力最为人所诟病的“幻觉”。当这一功能被添加进Noa的多模态功能组后,我们可以随时随地、解放双手地获取来自网络的实时可靠信息。
在Perplexity的能力调用下,Frame可以通过简单的交互动作,在Noa的访问下了解、认知并触达我们身边的万事万物。比如我们看向自己家的房子,便可以在贝壳App上搜索其房源;转头看看久不打理的杂物房,便可以获取一套包含用品、方法在内的清洁方案。
Bobak表示,“我们希望Frame能够使人们以全新的方式彼此连接,并在日常生活、工作场所、课堂等方面开启新的体验,真正为人类与数字世界以及彼此之间的接口带来了新的范式”。
走向星辰大海的不同航路
生成式AI代表未来是东西方大模型创业者的共识,而就AI发展道路来看,这个共识之后延伸出的道路却在不同的构想中走向分野,就像字母Y一般。
在中国创业语境里,“入口”往往是某个产品或业务的终局。在既往发展路径与移动互联网高速发展的引导下,我们追求的是极致规模化带来的近乎于垄断的市场地位。
海外则与之不同,产品或业务的终局是通过极致工程化来尽可能放大产品对人类社会发展进程的影响,做那只大洋彼岸煽动翅膀的蝴蝶。当影响力足够大时,商业模式与盈利也将随之而来。
或许这也是为什么面对同样的AI硬件风口,国内企业会一窝蜂挤进确定性较强的AI OS赛道,而以Brilliant Labs为代表的海外创业者会从不同的角度切入较垂直的细分场景,寻找潜在的机会。
正如法国哲学家在批判现代工业社会时提出的“单向度的人”,效率至上的社会节奏规训出人们单一的价值取向和判断标准,一维的社会声音和思想逐渐形成, Bobak希望能通过他的产品改变这一现状。
“我一直鼓励人们学习从多个层次(Layers)去看待周围的万事万物,跳脱出经历、观念、教育等带来的局限性。而Frame便是用来帮助我们从多层次、多维度与多角度观察世界的工具。”
正是这一愿景推动Brilliant Labs将AI与AR技术相结合,并推出了Frame。这背后的逻辑是,如果大模型本身解决了最基础的交流,那么虚拟现实与多模态便赋予了AI更丰富的交互与感知,这本身便是一个创新机遇所在。
反过来看,AR这项技术也不应自我限制在简单的娱乐上。
Brilliant Labs创立时恰逢疫情与NLP、CV一类AI技术大爆发期间,但AR赛道的创业者们在以Pokemon GO为代表的数个成功案例的引导下,不断将AR概念向影音、游戏等娱乐方式推动。彼时的Bobak便时常扪心自问,这究竟是不是AR的终局?
这样的疑问在AI之下得到了解答,Bobak早在大模型风起前数年便将目光投向AI,并构想了一个透过AI突破人类承载知识的极限,从而成为尼采设想中的“超人”的终局——all of the knowledge on the internet will live within our minds(互联网上的所有知识都将存在于我们的脑海中)。
“Noa不仅是一个多模态AI助手,它的知识图谱还可以持续记录、分析使用者遇到的问题并总结经验”,Bobak说,“如果我们使用Frame足够长的时间,这些个性化的知识与经验便可以传承给我们的后代”。
如果说上文提到的Perplexity解决了我们获得去伪存真的互联网信息的问题,那么Noa的知识图谱解决的便是个性化的私人经验问题。作为一款支持处方镜片的AI眼镜,Frame天然有着比智能手机更长的使用时间,也能通过与我们的交互,感知并记录更多生活上的细节,无论是学习、求职、婚恋还是养老。
那么当我们的后代使用Frame,与我们的personal Noa交互,其便能在他们遇到相似情况时给出建议,比如求职时应如何应对面试官,学习时要通过思维导图提升效率等,让人们都不会再“淌入同一条河流”,就像美剧《权力的游戏》中能看见古今未来的三眼乌鸦。
图为Brilliant Labs创始团队。据悉,Brilliant Labs最新一轮融资,由AR先驱Niantic CEO 《Pokémon GO》的创造者John Hanke领投
当然,长期主义下的终局仍需持续的商业运作,Frame作为一个面向普罗大众的硬件产品,它还是要考虑其受众、盈利、商业模型等问题。
据悉,Frame在销售上采取了以直销为主的销售模式,其已于日前开启预定,并在2024年4月开始发货。如果Frame进入大陆地区,其还将支持调用包括文心一言在内的国产大模型。我们还了解到,目前预定Frame最多的群体并非对AI感兴趣的普通人,而是根植于赛道内的开发者。
和许多带有极客色彩的创新产品相似,面对一个全新的产品,往往是开发者率先尝试并形成由美国学者埃弗雷特·罗杰斯提出的创新扩散模型。实际上,无论是开发者还是早期用户,在面对一个不甚成熟的产品时都会自发探索其边界,最终通过社区、社交媒体、私域等渠道与企业建立良好的强化反馈体系,帮助产品迭代。
整个2023年,AI技术在顶层设计与B端商业化的影响下,直至去年9月才开始大规模面向用户,这导致AI的创新扩散走了大半年的限速车道。这也是国内大模型应用落地逊于海外的原因之一。
AI硬件赛道持续火热,在这条试图通往AGI的航路上,我们目前难以断言东西方的不同创业者中,谁将率先拿下赛点。或许,商业化的终局导致AI PC与AI Phone的发展已经开始进入相互角力的垃圾时间,而小而美的创业公司更能代表生成式AI的创新与未来。
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】