人工智能

智谱AI发布评分模型CritiqueLLM 可评估文本生成模型性能

字号+作者: 来源:站长之家 2023-12-12 14:27 评论(创建话题) 收藏成功收藏本文

站长之家(ChinaZ.com) 12月12日 消息:近日,智谱AI发布了高质量、低成本的评分模型CritiqueLLM,用于评估文本生成模型的性能。传统的评价指标如 BLEU 和 R'...

站长之家(ChinaZ.com) 12月12日 消息:近日,智谱AI发布了高质量、低成本的评分模型CritiqueLLM,用于评估文本生成模型的性能。jXs品论天涯网

传统的评价指标如 BLEU 和 ROUGE 主要基于 n-gram 重合度来计算评分,缺乏对整体语义的把握。而基于模型的评价方法则对基座模型的选取非常依赖,只有顶级的大模型才能取得令人满意的效果。jXs品论天涯网

为了解决这些问题,CritiqueLLM 提出了一种可解释、可扩展的文本质量评价模型。它能够针对各种任务生成高质量的评分和评价解释。在含参考文本的场景下,CritiqueLLM 将大模型生成文本和参考文本进行对比,并给出了评分。jXs品论天涯网

微信截图_20231212141926.pngjXs品论天涯网

在8类常见的任务中,CritiqueLLM 的评价分数与人工评分的相关系数显著超过了其他模型,尤其是在无参考文本设定下,CritiqueLLM 在3个任务上超过了 GPT-4,达到了最优的评价性能。jXs品论天涯网

CritiqueLLM 的方法包括四个主要步骤:用户询问增广、含参考文本评价数据收集、无参考文本评价数据改写和训练 CritiqueLLM 模型。通过这些步骤,可以得到适用于含参考文本和无参考文本设定的两种 CritiqueLLM 模型,用于评估文本生成模型的性能。jXs品论天涯网

论文链接:https://arxiv.org/abs/2311.18702jXs品论天涯网

Github 链接:https://github.com/thu-coai/CritiqueLLMjXs品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]

相关文章