人工智能

国产AI大模型ChatGLM开测:为中文优化、支持国产CPU训练

ChatGPT今天升级了GPT-4模型,AI能力更加强大,国内在这方面也在迅速追赶,有国歌国产版ChatGPT问世了,现在清华大学教授唐杰宣布由该校AI成果转化的ChatGLM开'...

www.pltyw.com,pltyw.com

ChatGPT今天升级了GPT-4模型,AI能力更加强大,国内在这方面也在迅速追赶,有国歌国产版ChatGPT问世了,现在清华大学教授唐杰宣布由该校AI成果转化的ChatGLM开始内测。qiE品论天涯网

据介绍,对话机器人ChatGLM(alpha内测版:QAGLM),这是一个初具问答和对话功能的千亿中英语言模型,并针对中文进行了优化,现已开启邀请制内测,后续还会逐步扩大内测范围。qiE品论天涯网

qiE品论天涯网

与此同时,继开源GLM-130B千亿基座模型之后,我们正式开源最新的中英双语对话GLM模型:ChatGLM-6B,结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4量化级别下最低只需6GB显存)。qiE品论天涯网

经过约1T标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62亿参数的ChatGLM-6B虽然规模不及千亿模型,但大大降低了用户部署的门槛,并且已经能生成相当符合人类偏好的回答。qiE品论天涯网

ChatGLM参考了ChatGPT的设计思路,在千亿基座模型GLM-130B1 中注入了代码预训练,通过有监督微调(SupervisedFine-Tuning)等技术实现人类意图对齐。qiE品论天涯网

ChatGLM当前版本模型的能力提升主要来源于独特的千亿基座模型GLM-130B。它是不同于BERT、GPT-3以及T5的架构,是一个包含多目标函数的自回归预训练模型。qiE品论天涯网

2022年8月,我们向研究界和工业界开放了拥有1300亿参数的中英双语稠密模型GLM-130B1,该模型有一些独特的优势:qiE品论天涯网

双语: 同时支持中文和英文。qiE品论天涯网

高精度(英文): 在公开的英文自然语言榜单LAMBADA、MMLU和Big-bench-lite上优于GPT-3175B(API:davinci,基座模型)、OPT-175B和BLOOM-176B。qiE品论天涯网

高精度(中文): 在7个零样本CLUE数据集和5个零样本FewCLUE数据集上明显优于ERNIETITAN3.0260B和YUAN1.0-245B。qiE品论天涯网

快速推理: 首个实现INT4量化的千亿模型,支持用一台4卡3090或8卡2080Ti服务器进行快速且基本无损推理。qiE品论天涯网

可复现性: 所有结果(超过30个任务)均可通过我们的开源代码和模型参数复现。qiE品论天涯网

跨平台: 支持在国产的海光DCU、华为昇腾910和申威处理器及美国的英伟达芯片上进行训练与推理。qiE品论天涯网

2022年11月,斯坦福大学大模型中心对全球30个主流大模型进行了全方位的评测2,GLM-130B是亚洲唯一入选的大模型。qiE品论天涯网

在与OpenAI、谷歌大脑、微软、英伟达、脸书的各大模型对比中,评测报告显示GLM-130B在准确性和恶意性指标上与GPT-3175B(davinci)接近或持平,鲁棒性和校准误差在所有千亿规模的基座大模型(作为公平对比,只对比无指令提示微调模型)中表现不错(下图)。qiE品论天涯网

qiE品论天涯网

图1.斯坦福大学基础模型中心对全球30个大模型的评测结果(2022年11月)qiE品论天涯网

www.pltyw.com,pltyw.com

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取。 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考;转载此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网站编辑联系,我们将及时更正、删除,谢谢。 本站邮箱[email protected]