人工智能

谷歌2小时疯狂复仇,终极杀器硬刚GPT-4o!Gemini颠覆搜索,视频AI震破Sora

字号+作者: 来源:​新智元公众号 2024-05-15 08:43 评论(创建话题) 收藏成功收藏本文

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权站长之家转载发布。【新智元导读】昨天被OpenAI提前截胡的谷歌,今天不甘示弱地开启反击!大'...

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权站长之家转载发布。fvE品论天涯网

【新智元导读】昨天被OpenAI提前截胡的谷歌,今天不甘示弱地开启反击!大杀器Project Astra效果不输GPT-4o,文生视频模型Veo硬刚Sora,用AI彻底颠覆谷歌搜索,Gemini1.5Pro达到200万token上下文……谷歌轰出一连串武器,对OpenAI贴脸开大。fvE品论天涯网

谷歌I/O2024如期来了,眼花缭乱地发布了一堆更新。fvE品论天涯网

跟OpenAI半小时的「小而美」发布会相比,谷歌显然准备得更加充分,当然,时间也相当之长……fvE品论天涯网

图片fvE品论天涯网

2个多小时的发布会也是挑战着观众们的极限,在场人群早已困倒一大片fvE品论天涯网

准备好,谷歌要开始轰炸了。fvE品论天涯网

首先,Gemini1.5Pro,上下文长度将达到惊人的200万token。fvE品论天涯网

然后,面对昨天OpenAI GPT-4o的挑衅,谷歌直接甩出大杀器Project Astra,视觉识别和语音交互效果,跟GPT-4o不相上下。fvE品论天涯网

image.pngfvE品论天涯网

接着,谷歌祭出文生视频模型Veo硬刚Sora,效果酷炫,时长超过1分钟,打破Sora纪录。fvE品论天涯网

最后来了一个重磅消息:谷歌搜索将被Gemini重塑,形态从此彻底改变!我们不再需要自己点进搜索结果,而是由多步骤推理的AI Overview来代办一切。fvE品论天涯网

发布会结束后,劈柴甚至还用Gemini算了一下,整个发布会共提了121次AI。fvE品论天涯网

图片fvE品论天涯网

Gemini时代,来了fvE品论天涯网

CEO劈柴上来就无视了GPT和Llama的存在,这样总结道:「我们完全处于Gemini时代」。fvE品论天涯网

并且给出数据:如今全世界使用Gemini的开发者,一共有150万人。fvE品论天涯网

万众瞩目的Gemini更新如期而至。fvE品论天涯网

图片fvE品论天涯网

Gemini1.5Pro最强特性之一,就是超长的上下文窗口,达到了100万tokens的级别,超过了目前所有的大语言模型,而且开放给个人用户使用。fvE品论天涯网

今天,劈柴宣布:它的上下文token数将会达到2000K(200万)!相比之下,GPT-4Turbo只有128K,Claude3也只有200K。fvE品论天涯网

而这也意味着——你可以给模型输入2小时视频、22小时音频、超过6万行代码或者140多万单词。fvE品论天涯网

图片fvE品论天涯网

2M长上下文窗口,可以去排队申请了fvE品论天涯网

这个上下文长度,已经超过了目前所有大模型。fvE品论天涯网

但是,这并不是终点,谷歌的目标是——无限长上下文,不过,这就是后话了。fvE品论天涯网

用篮球讲解牛顿运动定律

在这样的Gemini加持下,我们可以实现许多迅捷的功能。fvE品论天涯网

比如,作为父母需要了解孩子在学校的情况,就可以在Gmail中要求Gemini识别所有关于学校的电子邮件,然后帮你总结出要点。fvE品论天涯网

图片fvE品论天涯网

如果你错过了公司会议,但可以拿到一小时时长的会议录音,Gemini就能立刻帮你总结出会议要点。fvE品论天涯网

图片fvE品论天涯网

为了帮助学生和教师,在NotebookLM中,谷歌设计了一个「音频概述」的功能。fvE品论天涯网

把左边的所有材料作为输入,Notebook就可以把它们整合成一个个性化的科学讨论了。fvE品论天涯网

对于听觉学习型学生,这种形式就非常生动。fvE品论天涯网

图片fvE品论天涯网

演示这个demo的Josh表示,自己的儿子第一次看到这个功能时,直接惊掉下巴。fvE品论天涯网

他第一次感觉到,学习不再是死板的,牛顿力学定律居然以通过篮球来学习!fvE品论天涯网

支持多模态的Gemini可以处理你上传的任何格式的信息,理解内容后将其改造成适合你的形式,与你对话互动了!fvE品论天涯网

image.pngfvE品论天涯网

Agent:帮你申请退货

接下来,劈柴展示了Agent的一些例子。fvE品论天涯网

买了一双鞋子,不合适想退回怎么办?fvE品论天涯网

拍一张照片给Agent,它就可以从你的邮箱中搜出订单后,帮你填写退货单了。fvE品论天涯网

图片fvE品论天涯网

再比如,你刚搬到某个城市,Agent就能帮你探索你在这个城市所需的服务了,比如干洗店、帮忙遛狗的人等等。fvE品论天涯网

图片fvE品论天涯网

如果靠我们自己搜索,可是要搜十几个网站,但Gemini可以发挥自己的「多步推理」能力包揽这些任务,把你需要的信息一次性提供给你!fvE品论天涯网

搜索和整合信息的功能非常强大,输入新家的地址后,它甚至可以代替软件问你外卖应该放哪个位置。fvE品论天涯网

图片fvE品论天涯网

总的来说,谷歌的理念就是:利用Gemini的多模态、超长上下文和智能体能力,把世界上的所有信息组织起来,让它们对每个人都可触达、可利用。fvE品论天涯网

而最终目标,就是让AI对每一个人都有用。fvE品论天涯网

图片fvE品论天涯网

谷歌搜索,被Gemini彻底重塑fvE品论天涯网

之前OpenAI一直有意无意放出烟雾弹,声称要发布全新的搜索产品,等于是把刀架在谷歌脖子上了。fvE品论天涯网

果然,谷歌这次不甘示弱,放出了个大的。fvE品论天涯网

从今天开始,在Gemini的加持下,谷歌搜索会彻底变样。fvE品论天涯网

在搜索框下,会出现一个为你量身定做的AI总结。fvE品论天涯网

注意,它并不简单地将所有内容拼凑在一起,而是帮你把活都干了!fvE品论天涯网

你的问题是什么样,它就会帮你做规划,展示出若干个卡片,让搜索信息以鲜明的方式被呈现出来。fvE品论天涯网

图片fvE品论天涯网

这次AI Overview即将发布的另一个重磅功能,就是多步骤推理。fvE品论天涯网

它能将用户输入的一个复杂问题分解成多部分,确定需要解决哪些问题,以及用什么顺序解决。fvE品论天涯网

图片fvE品论天涯网

因此,以前可能要花几分钟甚至几个小时的研究,现在几秒钟内就可以完成!因为它将十个问题合而为一。fvE品论天涯网

比如,如果想找到波士顿最好的瑜伽或普拉提工作室,它会直接搜出来结果,然后帮你整理好情况介绍和工作时间。fvE品论天涯网

只要一次搜索,所有需要的信息就自动呈现出来。fvE品论天涯网

图片fvE品论天涯网

在下面这个例子中,你可以要求谷歌提供一个三天的膳食计划。fvE品论天涯网

这些食谱被从整个网络整合出来,清晰又全面。fvE品论天涯网

image.pngfvE品论天涯网

而且,我们还可以用视频去搜索了!fvE品论天涯网

比如,该怎么修这个唱片机?fvE品论天涯网

以前,我们需要进行一堆搜索,确定它的牌子、型号。fvE品论天涯网

现在,直接拍一个视频丢给谷歌,然后直接开口问:它的这个毛病是什么原因?fvE品论天涯网

谷歌用AI Overview,给出了最全面的信息。fvE品论天涯网

图片fvE品论天涯网

从此,在谷歌搜索中,你需要做的,就是简单的「张嘴问」。fvE品论天涯网

对标GPT-4o,Project Astra打造通用AI智能体fvE品论天涯网

我们已经看到,新模型GPT-4o赋予了ChatGPT强大的实时对话能力,让Her走进现实。fvE品论天涯网

全新AI语音助手,是通往AGI的下一个未来。fvE品论天涯网

对标OpenAI,谷歌DeepMind今天首次对外公布了「通用AI智能体」新项目——Astra。fvE品论天涯网

图片fvE品论天涯网

其实,昨天谷歌放出了一个demo,已经让所有人对Astra项目有了初步的了解。fvE品论天涯网

而今天,现场的演示更加炸裂。fvE品论天涯网

网友称,这是谷歌I/O大会中,自己最喜欢的part。fvE品论天涯网

图片fvE品论天涯网

不仅有Astra强大的对答如流的能力,还首次展示了「谷歌AR原型眼镜」配上AI的震撼演示。fvE品论天涯网

图片fvE品论天涯网

Astra两部分演示,每段视频均为单次拍摄、实时录制完成fvE品论天涯网

召唤Gemini之后,测试者提出问题,「当你看到会发出声音的东西时,告诉我」。fvE品论天涯网

它回答道,「我看到一个扬声器,它可能会发声」。fvE品论天涯网

image.pngfvE品论天涯网

接下来,测试者用红色剪头指向扬声器的顶部,再次问道,「这个扬声器的部件叫什么」?fvE品论天涯网

Gemini准确理解指令,并答出「这是高音扬声器,能产生高频的声音」。fvE品论天涯网

然后,对着桌上一桶彩色蜡笔,让Gemini就展示的物体,给出了「押头韵」的创意——fvE品论天涯网

「Creative crayons color cheerfully. They certainly craft colorful creations.」fvE品论天涯网

Gemini以「c」音重复开头,生动形象地描绘了用蜡笔欢快涂色,可以创作出许多绚丽多彩作品的场景。fvE品论天涯网

image.pngfvE品论天涯网

而更让你意想不到的是,它还可以读懂代码。fvE品论天涯网

甚至都不是截屏,而是用摄像头怼着电脑屏幕拍,然后问Gemini「这部分代码是做什么的」?fvE品论天涯网

Gemini看了一眼,就立即给出回答:「此段代码定义了加密和解密函数。它似乎使用AES CBC加密,根据密钥和初始化向量对数据进行编码和解码」。fvE品论天涯网

再将镜头移向窗外,「我在哪个街区」?fvE品论天涯网

Gemini便回答道,「这似乎是伦敦国王十字区,这里以火车站和交通枢纽而闻名」。fvE品论天涯网

眼镜找不到了?fvE品论天涯网

直接可以问Gemini,「你记得在哪里见过我的眼镜」?fvE品论天涯网

它立刻回想刚刚见到的场景,「是的,我记得。你的眼镜就在桌子上,旁边有一个红苹果」。fvE品论天涯网

要知道,刚刚这个问题并没有向它提过,Astra完全是凭自己的视觉记忆回答出来的,简直成精了。fvE品论天涯网

image.pngfvE品论天涯网

而Astra的这番表现,直接让全场倒吸一口凉气,发出惊呼。fvE品论天涯网

谷歌原型AR眼镜首现身

接下来的演示,更炫酷了。fvE品论天涯网

刚刚找到的眼镜,竟是谷歌的原型AR眼镜!配合上强大的Gemini模型,即将开辟全新的应用。fvE品论天涯网

测试者走到白板前,看向一个「服务器」的构建示意图,然后问道,「我应该怎样做能使这个系统更快」?fvE品论天涯网

Gemini表示,「在服务器和数据库之间,添加缓存可以提高速度」。fvE品论天涯网

再比如,「看到如下图,会让你想起什么」?fvE品论天涯网

——薛定谔的猫!fvE品论天涯网

image.pngfvE品论天涯网

「在帮我给这对家伙,起一个二重唱乐队名字」。fvE品论天涯网

——Golden StripesfvE品论天涯网

大会上,Hassabis称,「一直以来,谷歌希望构建一个能在日常生活中真正有所帮助的通用AI智能体。如今,这一愿景成为现实,可以追溯到很多年前。这也是谷歌从头开始打造多模态Gemini的主要原因」。fvE品论天涯网

真正的通用AI智能体,必须像人类一样,对复杂、动态的世界做出理解和响应。fvE品论天涯网

它需要接受和记住所看到的内容,以便理解上下文采取行动,并且具备主动性和个性化。fvE品论天涯网

甚至,你可以与其如真人般丝滑交流,没有任何滞后或延迟。fvE品论天涯网

为了打造这款全能AI智能体,谷歌DeepMind克服了很困难的工程挑战——将AI响应时间降低至对话水平。fvE品论天涯网

具体来说,谷歌团队在Gemini的基础上,开发了能够持续编码视频帧的智能体。fvE品论天涯网

然后,将视频和语音多模态输入,整合到事件时间轴中并缓存,以便实现AI智能体高效召回,更快处理信息。fvE品论天涯网

此外,谷歌还使用广泛的语调变化,增强了语音输出效果。fvE品论天涯网

基于这些努力,Astra能够更好理解上下文,在交谈中可以快速做出反应,让互动的节奏和质量感觉更加自然。fvE品论天涯网

有网友称,「谷歌的这个Astra项目绝对是游戏规则的改变者,我们现在生活在一个由个人AI助手组成的世界,聊天机器人现在已经过时了。它可以实时地看、说、听,几乎没有延迟」fvE品论天涯网

当然,这次演示中,谷歌偷偷推出的AR硬件,也成为网友们的关注点。fvE品论天涯网

谷歌科学家刚刚放出了,用Astra看谷歌I/O大会的演示,可以自己感受下。fvE品论天涯网

image.pngfvE品论天涯网

图像、音乐、视频,面面俱到fvE品论天涯网

与此同时,谷歌大会上再次推出了一系列关于「生成式媒体工具」的最新进展。fvE品论天涯网

其中,包括图像、音乐,以及视频模型。fvE品论天涯网

最强AI文生图Imagen3

首先,AI文本到图像生成模型Imagen3迎来重磅升级。fvE品论天涯网

比起上一代,Imagen3能生成更多细节、光影丰富,且干扰伪影更少的图像。fvE品论天涯网

新模型对提示的理解能力,得到显著提升,可以从较长的提示中,捕获细节。fvE品论天涯网

如下图中,对狼的特征,背景颜色,画质质量等要求,Imagen3一致地呈现了出来。fvE品论天涯网

另外,Imagen3可以生成视觉丰富、高质量的图像,有良好光照和构图。fvE品论天涯网

它可以准确地渲染小细节,比如人手上的细微皱纹,以及复杂的纹理。fvE品论天涯网

下图中,毛绒大象清晰的编织纹理,还有光照,效果鲜明。fvE品论天涯网

image.pngfvE品论天涯网

Imagen3还可以在更长的提示中,加入一些微小的细节,比如「野花」、「蓝色的小鸟」...fvE品论天涯网

image.pngfvE品论天涯网

谷歌还极大地改进了Imagen3的文本渲染能力。fvE品论天涯网

如下图片提示,「由各种颜色的羽毛组成的「光」字,黑色背景」,然后Imagen3生成了漂亮的字体。fvE品论天涯网

以下是官方给出的更多演示demo:fvE品论天涯网

image.pngfvE品论天涯网

fvE品论天涯网

image.pngfvE品论天涯网

视频生成模型Veo,1080p超过60秒

这次谷歌发布的视频模型Veo,可以看作是对OpenAI Sora的正面迎战了。fvE品论天涯网

可以看出,Veo生成的视频不仅真实,而且在光线、构图等方面具有惊人的电影感。fvE品论天涯网

Veo的推出建立在DeepMind过去一年各种开创性成果的基础上,包括GQN、Phenaki、Walt、VideoPoet、Lumiere等等。fvE品论天涯网

谷歌结合了这些成果中最好的架构和技术,提高了一致性、质量和分辨率。fvE品论天涯网

Veo具备1080p的高质量,用户提示可以是文本、图像、视频等各种格式,还能捕捉到其中关于视觉效果和影像风格的各种细节描述。fvE品论天涯网

通过点击「扩展」按钮,用户就可以持续增加视频的时长,最终,它的时长已经超过Sora达到了1分10秒。fvE品论天涯网

可以看到,在下面这个视频中,汽车的形状与周围环境始终保持一致。fvE品论天涯网

有这种专业级的生成效果,电影制作人可以直接用Veo来协助创作了。fvE品论天涯网

从此,每个人都可以成为导演,也应该成为导演。fvE品论天涯网

好消息是,Veo已经开始在官网开放试用了。此外,团队还开发了实验性工具VideoFX搭载Veo模型。fvE品论天涯网

申请入口:https://aitestkitchen.withgoogle.com/tools/video-fxfvE品论天涯网

在谷歌官博中,给出了Veo更多演示,还特别强调了均是AI生成,未经过修改:fvE品论天涯网

image.pngfvE品论天涯网

fvE品论天涯网

Music AI Sandbox

在音乐方面,谷歌和Youtube一起构建了Music AI Sandbox。fvE品论天涯网

输入一段旋律,它就可以进行风格迁移,帮助艺术家们快速实现自己的想法和创意。fvE品论天涯网

为此,谷歌还特意邀请了许多音乐家、词曲作者和制作人来测试。fvE品论天涯网

他们惊喜地发现,使用这个新的AI音乐工具,他们居然做出了自己从未想到的音乐!fvE品论天涯网

比如这位音乐制作人,希望把乐曲中的这段旋律变一个风格。fvE品论天涯网

Music AI Sandbox的产出,让他激动地当场跳起来。fvE品论天涯网

他表示,作为一个嘻哈音乐制作人,AI带给他的尝试空间,是无止境的。fvE品论天涯网

Demis Hassabis:我在思考智能的本质

谷歌DeepMind负责人Hassabis表示,自己从小玩国际象棋时,就一直在思考智能的本质是什么。fvE品论天涯网

他深信,如果我们能以负责任的方式建造AGI,影响将是深刻的。fvE品论天涯网

谷歌DeepMind自去年成立以来成绩斐然。而最近的大成就,就是几乎可以预测所有生命分子结构和相互作用的AlphaFold3了。fvE品论天涯网

谷歌还打造出了一款Gemini原生多模态应用,可以同时文本、音频、视频内容。fvE品论天涯网

一直以来,谷歌希望能够打造一个有用的个人AI助理。fvE品论天涯网

Gemini App,正重新定义我们的交互方式。fvE品论天涯网

为了让我们与Gemini交互更自然,谷歌发布了Gemini Live。fvE品论天涯网

有了它,你可以在给朋友发消息的同一个程序中,还能与Gemini聊天。fvE品论天涯网

你甚至可以控制自己的说话节奏,或者随时打断Gemini回答,如同与真人交流一样。fvE品论天涯网

比如,你正在为一场面试做准备,只需要进入Live,让Gemini陪你一起做准备。fvE品论天涯网

Gemini可以与你进行模拟面试排练,甚至在与潜在雇主交谈时应该突出哪些技能,还能提供建议。fvE品论天涯网

谷歌表示,今年晚些时候,会推出摄像头模式,可以以周围环境与Gemini实现对话。fvE品论天涯网

与此同时,谷歌还推出了根据个人需求自定义的Gemini专家——Gems。fvE品论天涯网

它可以是你的健身教练、瑜伽伙伴,也可以是你的写作创意导师、编程伙伴等等。fvE品论天涯网

接下来,谷歌还展示了通过规划,让我们如何离AI助手更近一步。fvE品论天涯网

比如,一次旅行的规划,需要涉及地理、时间、天气等诸多因素,需要AI能够做出优先顺序和决策的能力。fvE品论天涯网

Gemini Advanced的全新旅行规划,可以将模型推理和智慧融为一体,为人类更好服务。fvE品论天涯网

在Gemini的加持下,谷歌还会推出Ask Photos的新功能。fvE品论天涯网

比如,如果付停车费时忘了自己的车牌号,就可以直接询问自己的车牌照片是哪个,不需要翻阅手机里的大量照片了。fvE品论天涯网

在比如,你可以问它女儿是什么时候学会游泳的?她的游泳是怎么进步的?fvE品论天涯网

Gemini会识别众多照片中的不同场景,将所有相关内容汇总。fvE品论天涯网

Gemini1.5Flash:更小,更快,200万tokenfvE品论天涯网

根据某些Gemini1.5Pro用户的反馈,一些程序需要更低的延迟和服务成本。fvE品论天涯网

针对这一点,谷歌发布了Gemini1.5Flash。fvE品论天涯网

跟Pro比,Flash是一个更轻量级的模型,专为那些对响应速度要求极高的特定或频繁任务优化。fvE品论天涯网

并且,它同样具有多模态、1M tokens长上下文的特点,只不过实现了轻量化、低延迟、高效推理,每百万个token的价格仅是Pro版的二十分之一。fvE品论天涯网

今天起,Gemini1.5Flash在Google AI Studio和Vertex AI中就可用了,开发者可以注册申请两百万token的内测版。fvE品论天涯网

此外,为了方便开发者,谷歌还对Gemini的API功能进行了三项优化——视频帧提取、并行函数调用和上下文缓存。fvE品论天涯网

在背后给这些技术进步提供基础设施的,就是谷歌的TPU。fvE品论天涯网

简单来说,相较于TPU v5e,第六代Trillium TPU在性能上实现了高达4.7倍的提升,并在能效上提升了超过67%。fvE品论天涯网

为了实现这一飞跃,谷歌增大了矩阵乘法单元(MXUs)的规模并提升了时钟速度。fvE品论天涯网

并为Trillium配备了第三代SparseCore——专门用于处理高级排序和推荐工作负载中常见的超大嵌入的加速器。fvE品论天涯网

在这里,SparseCores可以通过从TensorCores策略性地卸载随机和细粒度访问,有效加速了重嵌入型工作负载。fvE品论天涯网

与此同时,谷歌还将高带宽存储器(HBM)的容量和带宽翻倍,并将芯片间互连(ICI)的带宽提升了一倍。fvE品论天涯网

由此,Trillium可以支持更加复杂的模型,拥有更多的权重和更大的键值缓存,并大幅缩短了大模型的训练时间和响应延迟。fvE品论天涯网

在一个高带宽、低延迟的Pod中,Trillium可以扩展至256个TPU。fvE品论天涯网

而通过多切片技术和Titanium智能处理单元(IPU),Trillium还可以进一步扩展——通过数百个Pod,连接数以万计的芯片,并在一个多千兆位每秒的数据中心网络支持下,组成一个超大规模的超级计算机。fvE品论天涯网

最后,谷歌还发布了自家首个视觉-语言开源模型——PaliGemma,专门针对图像标注、视觉问答及其他图像标签化任务进行了优化。fvE品论天涯网

不仅如此,谷歌还将在6月推出规模更大的开源模型——Gemma227B。fvE品论天涯网

在性能方面,全新的Gemma27B不仅超越了规模大了2倍还多的模型,而且还能在GPU或单个TPU主机上高效运行。fvE品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]