研究发现许多人工智能模型的安全评估都有很大的局限性-品论天涯网

一份新报告指出，尽管对人工智能安全性和问责制的要求越来越高，但目前的测试和基准可能还不够。生成式人工智能模型--可以分析和输出文本、图像、音乐、视频等的模型--因其容易犯错和普遍行为不可预测而受到越来越多的关注。现在，从公共部门机构到大型科技公司，都在提出新的基准来测试这些模型的安全性。kjB品论天涯网

kjB品论天涯网

去年年底，初创公司ScaleAI成立了一个实验室，专门评估模型与安全准则的一致性。本月，NIST和英国人工智能安全研究所发布了旨在评估模型风险的工具。但这些模型探测测试和方法可能还不够。kjB品论天涯网

英国非营利性人工智能研究机构阿达-拉芙蕾丝研究所（ALI）进行了一项研究，采访了来自学术实验室、民间社会和生产厂商模型的专家，并对最近的人工智能安全评估研究进行了审核。共同作者发现，虽然目前的评估可能有用，但它们并不详尽，很容易被玩弄，也不一定能说明模型在真实世界场景中的表现。kjB品论天涯网

"无论是智能手机、处方药还是汽车，我们都希望自己使用的产品是安全可靠的；在这些领域，产品在部署之前都要经过严格的测试，以确保它们是安全的，"ALI高级研究员、报告的共同作者埃利奥特-琼斯（ElliotJones）说。"我们的研究旨在检查当前人工智能安全评估方法的局限性，评估目前如何使用评估，并探索将其作为政策制定者和监管者的工具。"kjB品论天涯网

kjB品论天涯网

研究报告的共同作者首先对学术文献进行了调查，以了解当今模型造成的危害和风险，以及现有人工智能模型评估的现状。然后，他们采访了16位专家，其中包括四位开发生成式人工智能系统的未具名科技公司的员工。kjB品论天涯网

研究发现，人工智能行业内部对评估模型的最佳方法和分类标准存在严重分歧。kjB品论天涯网

有些评估只测试了模型如何与实验室中的基准保持一致，而没有测试模型可能对真实世界的用户产生的影响。还有一些评估采用的是为研究目的开发的测试，而不是对生产模型进行评估，但供应商却坚持在生产中使用这些模型。kjB品论天涯网

研究中引用的专家指出，从基准结果推断一个模型的性能是很困难的，甚至不清楚基准是否能表明一个模型拥有特定的能力。例如，一个模型可能在州律师资格考试中表现出色，但这并不意味着它能解决更多开放性的法律难题。kjB品论天涯网

专家们还指出了数据污染问题，即如果模型是在与测试数据相同的数据上训练出来的，那么基准结果就会高估模型的性能。专家们说，在很多情况下，企业选择基准并不是因为它们是最好的评估工具，而是为了方便和易于使用。kjB品论天涯网

ALI的研究员、该研究的合著者MahiHardalupas表示："基准有可能被开发人员操纵，他们可能会在用于评估模型的相同数据集上训练模型，相当于在考试前看到试卷，或者战略性地选择使用哪种评估方法。评估模型的版本也很重要。微小的变化可能会导致不可预测的行为变化，并可能会覆盖内置的安全功能。"kjB品论天涯网

ALI的研究还发现了"红队"（red-teaming）的问题。"红队"是指让个人或团体"攻击"模型以找出漏洞和缺陷的做法。包括人工智能初创公司OpenAI和Anthropic在内的许多公司都在使用"红队"评估模型，但"红队"几乎没有公认的标准，因此很难评估特定工作的有效性。kjB品论天涯网

专家们告诉研究报告的合著者，很难找到具备必要技能和专业知识的人员来组建红色团队，而且红色团队的人工性质使其成本高昂、费力不讨好，这对没有必要资源的小型组织来说是个障碍。kjB品论天涯网

加快模型发布速度的压力，以及不愿在发布前进行可能引发问题的测试，是人工智能评估效果不佳的主要原因。kjB品论天涯网

"与我们交谈过的一位在一家开发基础模型的公司工作的人认为，公司内部存在着更大的压力，要求快速发布模型，这使得推倒重来和认真开展评估变得更加困难，"琼斯说。"主要的人工智能实验室发布模型的速度超过了他们或社会确保模型安全可靠的能力"。kjB品论天涯网

在ALI的研究中，一位受访者称评估安全模型是一个"棘手"的问题。那么，该行业--以及监管该行业的人--对解决方案抱有什么希望呢？研究员马希-哈达鲁帕斯（MahiHardalupas）认为，前进的道路是存在的，但需要公共部门机构更多的参与。他说："监管者和决策者必须清楚地阐明他们希望从评估中得到什么。同时，评价界必须对评价目前的局限性和潜力保持透明。"kjB品论天涯网

Hardalupas建议各国政府授权公众更多地参与评估的制定工作，并采取措施支持第三方测试的"生态系统"，包括确保定期获取所需的模型和数据集的计划。kjB品论天涯网

琼斯认为，可能有必要开展"针对具体情况"的评估，这种评估不仅仅是测试模型如何响应提示，而是要研究模型可能影响的用户类型（如特定背景、性别或种族的人），以及对模型的攻击可能破坏保障措施的方式。kjB品论天涯网

她补充说："这将需要对评估的基础科学进行投资，以便在了解人工智能模型如何运作的基础上，开发出更稳健、更可重复的评估。"kjB品论天涯网

但可能永远无法保证模型的安全。"正如其他人所指出的，'安全'并不是模型的属性，"Hardalupas说。"确定一个模型是否'安全'，需要了解它的使用环境、销售对象或获取对象，以及现有的保障措施是否足以降低这些风险。对基金会模式的评估可以起到探索作用，以确定潜在的风险，但不能保证模式是安全的，更不用说'完全安全'了。我们的许多受访者都认为，评估不能证明模式是安全的，只能说明模式不安全"。"kjB品论天涯网