麻省理工学院和麻省理工学院-IBM沃森人工智能实验室的研究人员推出了一种计算机视觉模型EfficientViT,它可以加快高分辨率图像的实时语义分割,并针对硬件有限的设备(如自动驾驶汽车)进行优化。
自动驾驶汽车必须快速、准确地识别所遇到的物体,从停在街角的空转送货车到呼啸驶向十字路口的骑车人。
用于高分辨率计算机视觉的机器学习模型可以在边缘设备上实现计算密集型视觉应用,如自动驾驶或医疗图像分割。图为艺术家对自动驾驶技术的诠释。图片来源:麻省理工学院新闻
为此,自动驾驶汽车可能会使用强大的计算机视觉模型,对场景高分辨率图像中的每个像素进行分类,这样就不会忽略低质量图像中可能被遮挡的物体。但是,这项被称为语义分割的任务非常复杂,在图像分辨率较高的情况下需要进行大量计算。
来自麻省理工学院、麻省理工学院-IBM沃森人工智能实验室和其他机构的研究人员开发出了一种更高效的计算机视觉模型,大大降低了这项任务的计算复杂度。他们的模型可以在硬件资源有限的设备上实时准确地执行语义分割,例如可以让自动驾驶汽车做出瞬间决策的车载计算机。
优化实时处理
近期最先进的语义分割模型直接学习图像中每对像素之间的相互作用,因此它们的计算量会随着图像分辨率的提高而呈四倍增长。正因为如此,这些模型虽然准确,但速度太慢,无法在传感器或移动电话等边缘设备上实时处理高分辨率图像。
麻省理工学院的研究人员为语义分割模型设计了一种新的构建模块,它能实现与这些最先进模型相同的能力,但计算复杂度仅为线性,而且操作具有硬件效率。
由此产生了一个用于高分辨率计算机视觉的新模型系列,当部署在移动设备上时,其执行速度比以前的模型快达九倍。重要的是,这一新的模型系列显示出与这些替代模型相同或更高的精度。
EfficientViT可使自动驾驶汽车高效地执行语义分割,这是一项高分辨率计算机视觉任务,涉及对场景中的每个像素进行分类,以便汽车能够准确识别物体。图为演示视频中的一张照片,显示了用于物体分类的不同颜色。图片由研究人员提供
近距离观察解决方案
这项技术不仅能帮助自动驾驶汽车实时做出决策,还能提高其他高分辨率计算机视觉任务的效率,例如医学图像分割。
"虽然研究人员使用传统的视觉变换器已经有很长一段时间了,而且它们也取得了令人惊叹的成果,但我们希望人们也能关注这些模型的效率方面。我们的工作表明,大幅减少计算量是有可能的,这样就可以在设备本地进行实时图像分割。"电子工程与计算机科学系(EECS)副教授、麻省理工学院-IBM沃森人工智能实验室(MIT-IBMWatsonAILab)成员、描述新模型的论文的资深作者韩松(音译)说。
与他一起撰写论文的还有论文的第一作者、电子工程与计算机科学系研究生蔡涵、浙江大学本科生李俊彦、清华大学本科生胡慕妍以及麻省理工学院-IBM沃森人工智能实验室的主要研究人员甘创。这项研究将在计算机视觉国际会议上发表。
简化的解决方案
对机器学习模型来说,对可能有数百万像素的高分辨率图像中的每个像素进行分类是一项艰巨的任务。最近,一种被称为视觉转换器的强大新型模型得到了有效应用。
变换器最初是为自然语言处理而开发的。在这种情况下,它们将句子中的每个单词编码为一个标记,然后生成一个注意力图谱,该图谱捕捉每个标记与所有其他标记之间的关系。当模型进行预测时,该注意力图有助于理解上下文。
使用相同的概念,视觉转换器会将图像分割成像素片,并将每个小片编码为一个标记,然后生成注意力图。在生成这张注意力图时,模型会使用一个相似度函数,直接学习每对像素之间的相互作用。这样,该模型就形成了所谓的全局感受野,这意味着它可以访问图像的所有相关部分。
由于高分辨率图像可能包含数百万像素,并分成数千个片段,因此注意力图谱很快就会变得非常庞大。因此,随着图像分辨率的提高,计算量也会呈四倍增长。
在名为EfficientViT的新模型系列中,麻省理工学院的研究人员采用了一种更简单的机制来构建注意力图谱--用线性相似函数取代非线性相似函数。因此,他们可以重新安排运算顺序,在不改变功能和丢失全局感受野的情况下减少总计算量。在他们的模型中,预测所需的计算量随着图像分辨率的提高而线性增长。
"但天下没有免费的午餐。线性注意力只能捕捉到图像的全局背景,会丢失局部信息,从而使准确性变差,"Han说。为了弥补精度损失,研究人员在模型中加入了两个额外的元素,每个元素只增加少量计算量。
其中一个组件可以帮助模型捕捉局部特征的相互作用,减轻线性函数在局部信息提取方面的弱点。第二个元素是实现多尺度学习的模块,帮助模型识别大型和小型物体。
蔡涵说:"这里最关键的部分是,我们需要仔细平衡性能和效率。"他们设计的EfficientViT采用了硬件友好型架构,因此更容易在不同类型的设备上运行,如VR头显或自动驾驶汽车的边缘计算机。他们的模型还可以应用于其他计算机视觉任务,如图像分类。
简化语义分割
当他们在用于语义分割的数据集上测试他们的模型时,他们发现该模型在NVIDIA图形处理器(GPU)上的运行速度比其他流行的视觉变换器模型快9倍,而且准确率相同或更高。
韩松说:"现在,我们可以两全其美,降低运算速度,使其足以在移动和云设备上运行。"在这些成果的基础上,研究人员希望将这项技术应用于加速生成式机器学习模型,例如用于生成新图像的模型。他们还希望继续扩大EfficientViT在其他视觉任务中的应用。
AMD公司人工智能算法高级总监LuTian说:"韩松教授团队首创的高效变换器模型现已成为检测和分割等各种计算机视觉任务中尖端技术的支柱。他们的研究不仅展示了变换器的效率和能力,还揭示了其在现实世界应用中的巨大潜力,例如提高视频游戏中的图像质量。"
"模型压缩和轻量级模型设计是实现高效人工智能计算的关键研究课题,尤其是在大型基础模型方面。韩松教授的研究小组在压缩和加速现代深度学习模型,特别是视觉变换器方面取得了显著进展。"甲骨文公司人工智能和机器学习全球副总裁杰伊-杰克逊(JayJackson)补充说,他没有参与这项研究。"甲骨文云计算基础架构一直在支持他的团队推进这项具有影响力的研究,以实现高效、绿色的人工智能。"
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】