人工智能

扎克伯格与黄仁勋共同展示Meta最新版的视觉AI模型Segment Anything 2

字号+作者: 来源:cnBeta 2024-07-30 08:21 评论(创建话题) 收藏成功收藏本文

Meta公司去年推出的机器学习模型SegmentAnything一炮打响,该模型可以快速、可靠地识别并勾勒出图像中的任何事物。公司首席执行官马克-扎克伯格(MarkZuck'...

Meta公司去年推出的机器学习模型SegmentAnything一炮打响,该模型可以快速、可靠地识别并勾勒出图像中的任何事物。公司首席执行官马克-扎克伯格(MarkZuckerberg)周一在SIGGRAPH大会上首次公布了新版,将该模型应用到了视频领域。bEB品论天涯网


bEB品论天涯网

分割是一个专业术语,是指视觉模型观察图片并找出其中的部分:希望是"这是一只狗,狗后面是一棵树",而不是"这是一棵从狗身上长出来的树"。这一过程已经持续了几十年,但最近变得更好更快了,其中"SegmentAnything"是一大进步。bEB品论天涯网

SegmentAnything2(SA2)是一个后续模型,因为它不仅适用于静态图像,还适用于视频。"科学家们用这些东西来研究珊瑚礁和自然栖息地之类的东西。"扎克伯格在与NVIDIA首席执行官黄仁勋(JensenHuang)的对话中说:"但是,能够在视频中做到这一点,而且是零拍摄,并告诉它你想要什么,这就很酷了。"bEB品论天涯网

处理视频对计算要求更高,SA2仍然是一个需要大量硬件才能运行的庞大模型,但快速、灵活的分割在一年前几乎是不可能的。bEB品论天涯网


bEB品论天涯网

这种模式将和第一种模式一样,是开放和免费使用的,目前还没有托管版本的消息,而这些人工智能公司有时会提供托管版本。但有一个免费的演示版。bEB品论天涯网

当然,这样的模型需要大量数据来训练,Meta还发布了一个包含50000个视频的大型注释数据库,它就是为此目的而创建的。在描述SA2的论文中,另一个包含10万多个"内部可用"视频的数据库也被用于训练,但这个数据库并没有公开--我已经要求Meta提供更多信息,说明这是什么,以及为什么没有公开。(我们猜测这些视频来自Instagram和Facebook的公开资料)。bEB品论天涯网


bEB品论天涯网

标注训练数据示例bEB品论天涯网

几年来,Meta一直是"开放"人工智能领域的领军者,尽管事实上(正如扎克伯格在对话中所说),它很早就开始这样做了,并推出了PyTorch等工具。但最近,LLaMa、SegmentAnything和它免费发布的其他一些模型,已经成为这些领域人工智能性能的一个相对可及的标准,尽管它们的"开放性"还有待商榷。bEB品论天涯网

扎克伯格还提到了Meta公司开放技术的意义:"这不仅仅是一个软件,你需要一个围绕它的生态系统。如果我们不开放源代码,它甚至都不会运行得那么好,对吗?我们这么做并不是因为我们是利他主义者,尽管我认为这对生态系统会有帮助,我们这么做是因为我们认为这会让我们正在构建的东西变得最好。"bEB品论天涯网

点击此处查看GitHubbEB品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]