富士通发布"Fugaku-LLM" 在超级计算机"富岳"上训练的日语增强大语言模型-品论天涯网

日本研究团队利用理化学研究所的超级计算机"Fugaku"发布了具有增强日语能力的大型语言模型--Fugaku-LLM。该团队由东京工业大学的横田理夫教授、东北大学的坂口圭介副教授、富士通公司的白畑幸一、理化学研究所的穆罕默德-瓦希卜（MohamedWahib）组长、名古屋大学的西口浩二副教授、CyberAgent公司的佐佐木翔太（ShotaSasaki）和KotobaTechnologies公司的小岛典之（NoriyukiKojima）领导。5pR品论天涯网

理化学研究所的超级计算机Fugaku

为了在Fugaku上训练大型语言模型，研究人员开发了分布式训练方法，包括将深度学习框架Megatron-DeepSpeed移植到Fugaku，以优化变形金刚在Fugaku上的性能。他们加速了Transformers的密集矩阵乘法库，并通过结合三种并行化技术优化了Fugaku的通信性能，还加速了Tofu互联D上的集体通信库。5pR品论天涯网

Fugaku-LLM有130亿个参数，比日本广泛开发的70亿个参数模型更大。Fugaku-LLM增强了日语能力，在日语MT-Bench中平均得分5.5，是使用日本原始数据训练的开放模型中最高的。特别是人文和社会科学任务的基准性能达到了9.18分的惊人高分。5pR品论天涯网

Fugaku-LLM是在CyberAgent收集的日语专有数据、英语数据和其他数据的基础上进行训练的。Fugaku-LLM的源代码可在GitHub上获取，模型可在HuggingFace上获取。只要用户遵守许可证，Fugaku-LLM可用于研究和商业目的。5pR品论天涯网

未来，随着更多研究人员和工程师参与改进模型及其应用，训练效率将得到提高，从而实现下一代创新研究和商业应用，例如科学模拟与生成式人工智能的联动，以及拥有成千上万人工智能的虚拟社区的社会模拟。5pR品论天涯网

研究背景5pR品论天涯网

近年来，大型语言模型（LLM）的发展十分活跃，尤其是在美国。其中，由OpenAI开发的ChatGPT(6)的迅速普及，对研发、经济体系和国家安全产生了深远影响。除美国外，其他国家也在本国投入大量人力和计算资源开发LLM。日本也需要确保用于人工智能研究的计算资源，以免在这场全球竞赛中落后。人们对日本的旗舰超级计算机系统"Fugaku"寄予厚望，因此有必要改善在"Fugaku"上进行大规模分布式培训的计算环境，以满足这些期望。5pR品论天涯网

因此，东京工业大学、东北大学、富士通公司、理化学研究所、名古屋大学、CyberAgent和KotobaTechnologies启动了一项关于开发大型语言模型的联合研究项目。5pR品论天涯网

各机构/公司的作用5pR品论天涯网

东京工业大学：大型语言模型的总体监督、并行化和通信加速（通过三种并行化组合优化通信性能，加速Tofu互联D上的集体通信）5pR品论天涯网

东北大学收集训练数据和选择模型5pR品论天涯网

富士通加速计算和通信（加速Tofu互联D上的集体通信、优化流水线并行化的性能）以及实施预训练和训练后微调5pR品论天涯网

理化学研究所：大规模语言模型的分布式并行化和通信加速（Tofu互联D上的集体通信加速）5pR品论天涯网

名古屋大学研究Fugaku-LLM在3D生成式人工智能中的应用方法5pR品论天涯网

CyberAgent：提供训练数据5pR品论天涯网

KotobaTechnologies：将深度学习框架移植到Fugaku5pR品论天涯网

未来发展5pR品论天涯网

这项研究的成果将通过GitHub和HuggingFace公开，以便其他研究人员和工程师可以利用这些成果进一步开发大型语言模型。只要用户遵守许可协议，Fugaku-LLM可用于研究和商业目的。从2024年5月10日起，Fugaku-LLM还将通过富士通研究门户网站提供给用户。5pR品论天涯网

未来，随着越来越多的研究人员和工程师参与到模型及其应用的改进中来，训练的效率将得到提高，从而实现下一代创新研究和商业应用，例如科学模拟与生成式人工智能的联系，以及拥有成千上万人工智能的虚拟社区的社会模拟。5pR品论天涯网

本研究得到了Fugaku政策支持提案"利用Fugaku开发大型语言模型的分布式并行训练"（提案号：hp230254）的支持。5pR品论天涯网