人工智能

斯坦福爆火Llama3-V竟抄袭中国开源项目 作者火速删库

字号+作者: 来源:机器之心 2024-06-03 14:27 评论(创建话题) 收藏成功收藏本文

在GPT-4o出世后,Llama3的风头被狠狠盖过。GPT-4o在图像识别、语音理解上卓越的性能展现了它强大多模态能力。开源领域的领头羊Llama3曾在几乎所有基准测'...

在GPT-4o出世后,Llama3的风头被狠狠盖过。GPT-4o在图像识别、语音理解上卓越的性能展现了它强大多模态能力。开源领域的领头羊Llama3曾在几乎所有基准测试中都超越了GPT-3.5,甚至在某些方面超越了GPT-4。这次就要闷声“吃瘪”了吗?73T品论天涯网

5月29日,一个来自斯坦福的研究团队发布了一个能够“改变现状”的产品:Llama3-V,号称只要500美元(约为人民币3650元),就能基于Llama3训练出一个超强的多模态模型,效果与GPT4-V、GeminiUltra、ClaudeOpus多模态性能相当,但模型小100倍。73T品论天涯网


73T品论天涯网

Github项目链接:https://github.com/mustafaaljadery/llama3v(已删库)73T品论天涯网

HuggingFace项目链接:https://huggingface.co/mustafaaljadery/llama3v(已删库)73T品论天涯网

用这么少的成本,创造出了如此惊艳的成果,Llama3-V在Twitter上迅速爆火,浏览量突破30万,转发超过300次,还冲上了“HuggingFaceTrending”Top5。73T品论天涯网


73T品论天涯网

但是没发布两天,Llama3-V就遭遇了重重质疑。有人指出,Llama3-V项目中有一大部分似乎窃取了清华大学自然语言处理实验室与面壁智能合作开发的多模态模型MiniCPM-Llama3-V2.5。73T品论天涯网

MiniCPM-V是面向图文理解的端侧多模态大模型系列。MiniCPM-Llama3-V2.5是该系列的最新版本。其多模态综合性能超越GPT-4V-1106、GeminiPro、Claude3、Qwen-VL-Max等商用闭源模型。OCR能力及指令跟随能力进一步提升,并支持超过30种语言的多模态交互。这样的优秀性能,不仅让MiniCPM-Llama3-V2.5成为受大家推崇的模型,或许也成为了Llama3-V的“模仿”对象。73T品论天涯网


73T品论天涯网

项目地址:https://github.com/OpenBMB/MiniCPM-V/blob/main/README_zh.md73T品论天涯网

可疑的作者答复73T品论天涯网

HuggingFace用户JosephusCheung在项目的评论区中提出问题,Llama3-V是否在未提及的情况下使用openbmb/MiniCPM-Llama3-V-2.5进行了训练。而作者回复表明,Llama3-V使用了MiniCPM-Llama3-V-2.5的预训练tokenizer,并且是在它发布前就开始了这项工作。这样的解释明显出现了时间错位,加重了大家的怀疑。73T品论天涯网


73T品论天涯网


73T品论天涯网

细扒其中猫腻73T品论天涯网

此外,还有一位名为MagicYang的网友也产生了质疑,他对于这两个模型的相似性也有着更深的洞察。73T品论天涯网

他首先在Llama3-V的GitHub项目Issue中发布了他的疑问,没想到Llama3-V的作者们很快就删除了质疑帖。73T品论天涯网


73T品论天涯网

在这个Issue中,他首先提出,Llama3-V与MiniCPM-Llama3-V2.5具有相同的模型结构和配置文件,只是变量名不同。Llama3-V的代码几乎完全照抄MiniCPM-Llama3-V2.5,只是进行了一些格式上的修改,包括但不限于分割图像、tokenizer、重采样器和数据加载部分。73T品论天涯网


73T品论天涯网


73T品论天涯网

Llama3-V的作者立马回复,称Llama3-V在架构上参考的是LLaVA-UHD,并列出了在ViT和LLM选择上与MiniCPM-Llama3-V2.5的差异。73T品论天涯网

但MagicYang发现,相比LLaVA-UHD所用的方法,Llama3-V与MiniCPM-Llama3-V2.5可谓是一模一样。特别是Llama3-V使用了与MiniCPM-Llama3-V2.5相同的,连MiniCPM-Llama3-V2.5新定义的特殊符号都“抄”上了。73T品论天涯网


73T品论天涯网

于是,他向作者提问,为什么Llama3-V在MiniCPM-Llama3-V2.5项目发布之前,就未卜先知似的拿到了其tokenizer?这似乎算是追问了作者对JosephusCheung的回答。73T品论天涯网

Llama3-V作者回答称,他参考了MiniCPM-V-2的tokenizer(https://huggingface.co/openbmb/MinicPM-V-2/blob/main/tokenizer.jsonBefore),MiniCPM-Llama3-V2.5采用了新的tokenizer和原来版本中的特殊符号,因此Llama3-V的代码中保留了这个符号,但Llama3-V与MiniCPM-Llama3-V2.5是完全不同。73T品论天涯网


73T品论天涯网

但事实是,MiniCPM-V-2的tokenizer与MinicPM-Llama3-V2.5完全不同,在HuggingFace里是两个文件,文件大小也完全不同,也不包含Llama3-V所用到的与Llama3有关的tokenizer。73T品论天涯网


73T品论天涯网


73T品论天涯网

MagicYang还发现了Llama3-V的作者在HuggingFace上传项目时,直接导入了MiniCPM-Llama3-V2.5的代码,后来才把一些文件里的名称替换为Llama3-V。73T品论天涯网


73T品论天涯网

于是,Llama3-V的作者的作者再次回复,称MagicYang的指控大错特错。首先,想要运行HuggingFaceTransformer,需要给模型写配置文件,但是他们恰好发现MiniCPM的配置能用,因此,他们使用了与MiniCPM相同的配置。其二,Llama3-V的模型架构SigLIP的灵感来源于Idéfics,作者之前也提到,Llama3-V模型架构参考的LLaVA-UHD同样如此,并且在视觉代码方面,他们借鉴了Idéfics,并非照搬MiniCPM。73T品论天涯网


73T品论天涯网

更令人惊讶的是,MagicYang发现Llama3-V项目的作者似乎并不理解他们自己的代码,或许也不明白搬来的MiniCPM-Llama3-V2.5架构中的细节。73T品论天涯网

感知器重采样器(PerceiverResampler)使用的是单层交叉注意力,而非双层自注意力。然而,下图中的Llama3-V技术博客中的描述明显存在误解。73T品论天涯网


73T品论天涯网

Llama3-V的技术博客73T品论天涯网


73T品论天涯网

Llama3-V的代码73T品论天涯网

此外,SigLIP的Sigmoid激活功能并不用于训练多模态大语言模型,而是仅在SigLIP的预训练过程中使用。看来,作者对于自己的代码理解还是有很大偏差的。73T品论天涯网


73T品论天涯网

Llama3-V的技术博客73T品论天涯网


73T品论天涯网

Llama3-V的代码73T品论天涯网

对于清华NLP实验室和面壁智能团队特别采集和标注,从未对外公开的专有数据,Llama3-V的表现也非常出色。“清华简”是一种非常特殊且罕见的中国战国时期的古文字,而美国模型Llama3-V不仅认识中国古文字,在认错字的时候,也和MiniCPM-Llama3-V2.5一模一样。73T品论天涯网


73T品论天涯网

有网友用1000张竹简图像对同类模型进行了测试,正常情况下,每两个模型之间的重叠应该为0,而Llama3-V和MiniCPM-Llama3-V2.5之间的重叠高达87%。识别错误的结果Llama3-V和MiniCPM-Llama3-V2.5也有高达182个重合。73T品论天涯网


73T品论天涯网

删库?也不管用73T品论天涯网

在重重质疑之后,Llama3-V的作者行动了。此前宣传Llama3-V的Twitter内容流已不可见。73T品论天涯网


73T品论天涯网

他还隐藏了HuggingFace的仓库。MagicYang再次发难,问Llama3-V的作者为何在HuggingFace上将模型设为私密?73T品论天涯网

作者称,设为私密是为了修复Llama3-V的推理功能,MiniCPM的配置与Llama3-V不兼容,当时HuggingFaceTransformers无法正确地加载模型,为了避免下载模型的用户运行失败,他将进行一些修复。73T品论天涯网


73T品论天涯网

同样地,Llama3-V的GitHub项目主页也显示为“404”。73T品论天涯网


73T品论天涯网

GitHub地址:https://github.com/mustafaaljadery/llama3v73T品论天涯网

这些举动显然是为了应对社区的强烈反应和对模型来源合法性的质疑。但这样的逃避似乎并不管用。即使MagicYang与对话已经随着项目页面404而隐藏。但MagicYang已将对话截图评论在了MiniCPM-V的GitHub页面。73T品论天涯网


73T品论天涯网

据网友反馈,当运行Llama3-V时,作者提供的代码无法与HuggingFace上的checkpoint兼容。然而,当把Llama3-V模型权重中的变量名更改为MiniCPM-Llama3-V2.5后,就能成功运行。73T品论天涯网


73T品论天涯网

如果在MiniCPM-Llama3-V2.5的checkpoint上添加一个简单的高斯噪声,就会得到一个在各个测试集上的表现都与Llama3-V极为相似的模型。73T品论天涯网


73T品论天涯网

有网友上传了Llama3-V删库前的检查点,大家可以自行测试验证。73T品论天涯网


73T品论天涯网

检查点链接:https://twitter.com/zhanga6/status/179729320733804171973T品论天涯网

有人认为,这是关乎道德、诚信与声誉的问题。如果抄袭得到验证,斯坦福大学应该介入调查。73T品论天涯网


73T品论天涯网


73T品论天涯网

图源:X@AvikonHadoop73T品论天涯网

在国内外舆情发酵了两天后,作者之一站出来道歉,称“抄袭”源于对队友Mustafa的盲信。73T品论天涯网


73T品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]