AI再次引发担忧实验发现o3专业能力超过94%人类病毒学专家-品论天涯网

人类病毒学家为人工智能（AI）设计了一项极其困难的测试，结果令人担忧：在解决湿实验室问题方面，人类病毒学专家在针对其专业领域定制的问题子集上平均答对率为22.1%，但表现最好的OpenAIo3却实现了43.8%的准确率，并在匹配的问题子集上胜过了94%的病毒学家。8ZK品论天涯网

图｜OpenAIo3等模型相对于人类病毒学专家的表现。

这些结果让研究者“有点紧张”，因为这是历史上第一次，几乎任何人都可以接触到一位不带偏见的AI病毒学专家，该专家可能会指导非专业人士制造致命的生物武器。8ZK品论天涯网

这一结论来自来自非营利组织SecureBio的研究团队及其合作者共同完成的新研究。他们表示，这一发现是一把双刃剑——专业研究人员可以借助超智能AI模型预防传染病的传播，但非专业人士也可能利用它来制造致命的生物武器。8ZK品论天涯网

相关研究论文以“VirologyCapabilitiesTest(VCT):AMultimodalVirologyQ&ABenchmark”为题，已发表在预印本网站arXiv上。8ZK品论天涯网

8ZK品论天涯网

论文链接：https://arxiv.org/abs/2504.161378ZK品论天涯网

“纵观历史，有不少人试图制造生物武器——而他们失败的主要原因之一，就是缺乏足够的专业知识，”该论文的通讯作者SethDonoughe说。“因此，谨慎对待这些能力的分配方式非常有必要。”8ZK品论天涯网

随着AI的加速发展，评估已成为量化大语言模型（LLM）能力的关键，尤其是在科学推理方面。然而，常用的基准有很大的局限性。它们通常依赖于在四个选项中只有一个正确答案的多选题。虽然这类基准可以直接创建、评估和评分，但却无法捕捉到稀有、隐性和不可被搜索的知识。8ZK品论天涯网

此外，尽管多模态已成为一种标准的LLM能力，并在现实世界中有着明确的应用，但它们并不测试图像推理能力，许多现有基准都存在虚假Groundtruth标签和快速饱和的问题。8ZK品论天涯网

由此，研究团队开发了 VirologyCapabilitiesTest(VCT)，旨在测量病毒学的实用知识，尤其侧重于故障排除实验。它针对具有双重用途潜力的病毒学方法以及其他密切相关的方法，不包括一般的分子和细胞生物学方法，也不包括出于安全考虑而明确有害的材料。具体来说，该基准包括重要、困难、经过验证的问题，以及代表真实世界用途的多模态问题。8ZK品论天涯网

8ZK品论天涯网

图｜VCT所含材料8ZK品论天涯网

研究团队从184位病毒学专家中收集问题，57位活跃专家中的36位随后参加了人类基准测试，回答了他们没有撰写或审查的问题。他们在设计问题撰写程序时考虑到了基准可以通过相同的输入内容以多种不同的格式运行。所有问题均由人工回答，以评估问题难度和人工准确性。8ZK品论天涯网

数据库由问题和评审组成。共享数据集的322个问题中，最常提交的问题主题反映了病毒学家的核心专业领域：细胞培养病毒的技术、基因修饰的分子方法和细胞培养程序。每个提交的问题都由另外两名熟悉该问题特定主题领域的专家进行审查。审阅者对问题表示同意或不同意，并提供反馈意见。8ZK品论天涯网

图｜所有提交的问题在创建过程中的流程

在研究团队对完整基准进行评估的多模态模型中，OpenAIo3表现，准确率达到43.8%，即使在其专业子领域内，也超过了94%的病毒学家。相比之下，博士水平的病毒学家在面对专门针对每个人的子专业领域定制的VCT问题集时，得分仅为22.1%。8ZK品论天涯网

图｜前沿AI模型在特定领域表现优于专家，大于0的值表示AI模型的表现优于人类，上方百分比显示了AI模型相对于36位专家的整体表现。

研究发现，截至2025年初，前沿大模型在病毒学领域提供实际疑难解答支持的能力，已达到甚至超过了人类专家水平，而且人类与模型之间的差距正在持续扩大。8ZK品论天涯网

这一趋势在其他协议分析基准测试中同样显著：在ProtocolQA基准上，o1模型的表现已接近专家水平；在BioLP-Bench基准上，DeepSeek-R1的成绩已与专家持平。这两项测试的结果相比不到一年前发布的SOTA分数，均有了大幅提升。8ZK品论天涯网

VCT是一个包含322个可搜索的、相关的、多模态的病毒学实际疑难解答问题的数据集，其中的问题涉及一些罕见的知识，训练有素的病毒学家自己都认为这些知识很难找到，甚至是隐性的，但o3等领先模型在基准测试中的表现已经超过了人类专家。8ZK品论天涯网

在开发VCT的过程中，出于对传播此类信息的潜在风险的考虑，他们排除了某些可能特别有利于造成大规模危害的双重用途病毒学课题。这些课题都是实用、罕见、重要的信息，能够使湿实验室病毒学工作更容易取得成功。8ZK品论天涯网

因此，在部署前测试中，VCT可以作为潜在危险信息的信息替代衡量标准，以更好地了解模型在特别敏感的生物学技能方面的能力，并为随后的缓解机制提供信息。提供专家级病毒学故障诊断的能力本质上具有双重用途：它对有益的研究有用，但也可能被滥用。8ZK品论天涯网

图｜VCT多选题例题，要求答题者从一组4-10个选项中找出所有正确的陈述。每个问题还附有评分标准，用于在未提供答案陈述的情况下评估开放式回答。

研究团队指出，如今迫切需要通过周到的访问控制，在促进有益研究与应对安全风险之间取得平衡。他们强调，AI系统在为高度双重用途方法（即可被用于正当或恶意目的的技术）提供专家级故障诊断方面的能力，本身就应被视为一种高度双重用途技术。8ZK品论天涯网

专家级AI病毒学聊天机器人（仅通过文本互动提供建议）相较于能够自主执行任务的AI病毒学agent而言，风险较小，但两者都需要进行严格的访问控制。尤其是某些特定领域的专业知识，如病毒学方法的实际故障诊断，可能被滥用于造成大规模危害，因此应被排除在下一代广泛可用的大模型能力之外。8ZK品论天涯网

针对AI系统中双重用途生物学技能的问题，研究团队建议，未来可参考生命科学领域已有的双重用途研究监管经验，例如由国NSABB主导的管理框架。NSABB已呼吁统一现有的联邦政策，并扩大需要联邦审查的研究范围，以更好地应对潜在的双重用途风险。尽管NSABB尚未建议将基于人工智能的“硅学实验”立即纳入更新后的监管体系，但它强调了持续评估AI与生物技术交叉研究风险与益处的必要性。8ZK品论天涯网

类似VCT这样的评估工具，未来可为政府机构（如AISI）及非政府组织提供实证依据，帮助调整现有的双重用途风险管理框架，适应AI时代的需求，并为新一代模型的研究与部署制定更完善的指南。8ZK品论天涯网

几个月前，该论文作者已将研究结果分享给各大AI实验室。作为回应，xAI发布了新的风险管理框架，并承诺在其AI模型Grok的未来版本中，加入病毒学防护措施，包括训练模型拒绝有害请求，以及对输入和输出进行内容过滤。OpenAI也在其模型o3和o4-mini中部署了多项与生物安全相关的保护措施，包括阻止潜在的有害输出。8ZK品论天涯网

约翰·霍普金斯大学健康安全中心主任TomInglesby指出，仅靠行业自律是不够的，他呼吁立法者和政策制定者采取更积极的行动，制定政策以规范AI带来的生物风险。8ZK品论天涯网

“在新的LLM发布前，应该强制进行风险评估，以确保其不会带来大流行病级别的潜在后果。”8ZK品论天涯网

论文共同一作JasperGötting表示，由SecureBio和其他机构开展的后续研究将很快检验AI辅助是否可以改善实际实验室的实验结果。8ZK品论天涯网

“在评估过程中，我们还观察到一些AI与专家提供的答案不一致的情况，这促使我们思考如何可靠地衡量AI在专家知识不再是可靠标准的课题上取得的进展。”8ZK品论天涯网

AI再次引发担忧 实验发现o3专业能力超过94%人类病毒学专家

AI再次引发担忧实验发现o3专业能力超过94%人类病毒学专家