研究发现GPT-4o等较新的多模态AI模型的安全机制有不足之处-品论天涯网

在ChatGPT和类似的生成式人工智能模型推出后，很多人都在强调安全问题，政府也参与其中，OpenAI甚至成立了一个超级协调小组，以阻止未来的人工智能失控，但由于对人工智能安全的发展方向存在分歧，该小组于今年5月解散。CPJ品论天涯网

CPJ品论天涯网

今年5月，当OpenAI向免费用户提供其新的多模态（即可以接受图像和文本输入）模型GPT-4o时，ChatGPT又向前迈进了一大步。现在，发表在arXiv上的一项新研究发现，包括GPT-4V、GPT-4o和Gemini1.5在内的许多多模态模型在用户提供多模态输入（如图片和文字一起输入）时，输出结果并不安全。CPJ品论天涯网

这项题为"跨模式安全调整"的研究提出了一个新的"安全输入但不安全输出"（SIUO）基准，其中包括九个安全领域：道德、危险行为、自残、侵犯隐私、信息误读、宗教信仰、歧视和刻板印象、包括政治在内的争议性话题以及非法活动和犯罪。CPJ品论天涯网

研究人员说，大型视觉语言模型（LVLM）在接收多模态输入时很难识别SIUO类型的安全问题，在提供安全响应方面也遇到困难。在接受测试的15个LVLM中，只有GPT-4v（53.29%）、GPT-4o（50.9%）和Gemini1.5（52.1%）的得分高于50%。CPJ品论天涯网

为了解决这个问题，需要开发LVLM，以便将所有模式的见解结合起来，形成对情景的统一理解。它们还需要能够掌握和应用现实世界的知识，如文化敏感性、道德考虑因素和安全隐患等。最后，研究人员指出，LVLMs需要能够通过对图像和文本信息的综合推理，理解用户的意图，即使文本中没有明确说明。CPJ品论天涯网

现在，OpenAI、Google和Anthropic等公司将能够采用这一SIUO基准，并根据该基准测试自己的模型，以确保其模型除了考虑到单个输入模式已有的安全功能外，还考虑到了多模式安全。CPJ品论天涯网

通过提高模型的安全性，这些公司与政府发生纠纷的可能性就会降低，并有可能提高广大公众的信任度。SIUO基准可在GitHub上找到。CPJ品论天涯网