人工智能

微软推大模型整合性工具库PromptBench

字号+作者: 来源:站长之家 2023-12-27 16:31 评论(创建话题) 收藏成功收藏本文

站长之家(ChinaZ.com)12月27日 消息:微软最近推出了一个专门用于评估大语言模型的整合性工具库,名为PromptBench。该工具库提供了一系列工具,包括创建不同'...

站长之家(ChinaZ.com)12月27日 消息:微软最近推出了一个专门用于评估大语言模型的整合性工具库,名为PromptBench。该工具库提供了一系列工具,包括创建不同类型的提示、进行数据集和模型加载、执行对抗性提示攻击等,以支持研究人员从不同方面对LLMs进行评估和分析。30d品论天涯网

image.png30d品论天涯网

项目地址:https://github.com/microsoft/promptbench30d品论天涯网

论文地址:https://arxiv.org/abs/2312.0791030d品论天涯网

PromptBench的主要特点和功能包括:30d品论天涯网

支持多种模型和任务,能够评估多种不同的大语言模型,如GPT-4,以及多种任务,比如情感分析、语法检查等。30d品论天涯网

同时,提供标准评估、动态评估和语义评估等不同的评估方法,以全面测试模型的性能。另外,实现了多种提示工程方法,如少量样本的思维链、情感提示、专家提示等。还集成了多种对抗性测试方法,用于检测模型对于恶意输入的反应和抵抗力。30d品论天涯网

还包括用于解释评估结果的分析工具,如可视化分析和词频分析。最重要的是,PromptBench提供了一个界面,允许快速构建模型、加载数据集,并评估模型性能。可以通过简单的命令安装和使用,方便研究人员构建和运行评估管道。30d品论天涯网

PromptBench支持多种数据集和模型,包括GLUE、MMLU、SQuAD V2、IWSLT2017等,并支持众多模型,如GPT-4、ChatGPT等。这一系列特点和功能使得PromptBench成为一个非常强大且全面的评估工具库。30d品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]