李飞飞团队年度报告揭底大模型训练成本：Gemini Ultra是GPT-4的2.5倍-品论天涯网

声明：本文来自于微信公众号机器之心（ID：almosthuman2014），编辑:蛋酱、陈萍，授权站长之家转载发布。26P品论天涯网

如何复盘大模型技术爆发的这一年?除了直观的感受，你还需要一份系统的总结。26P品论天涯网

今天，斯坦福 HAI 研究所发布了第七个年度的 AI Index 报告，这是关于人工智能行业现状的最全面的报告之一。26P品论天涯网

26P品论天涯网

访问地址:https://hai.stanford.edu/news/ai-index-state-ai-13-charts26P品论天涯网

报告指出，人工智能的发展正以惊人的速度向前推进，开发人员每月都在制造出越来越强大、越来越复杂的模型。然而，尽管发展速度加快，人工智能行业在解决人们对人工智能可解释性的担忧以及对其对人们生活影响的日益紧张方面却进展甚微。26P品论天涯网

在今年的报告中，斯坦福 HAI 研究所增加了有关负责任人工智能的扩展章节，有关科学和医学领域人工智能的新章节，以及对研发、技术性能、经济、教育、政策和治理、多样性和公众舆论的综述。26P品论天涯网

26P品论天涯网

以下是报告的重点内容:26P品论天涯网

2023年的进展速度比以往任何一年都要快得多，GPT-4、Gemini 和 Claude3等最先进的系统显示出令人印象深刻的多模态功能，能够生成流畅的数据多种语言的文本、处理音频和图像以及解释网络梗图。26P品论天涯网

2023年新发布的支持生成式 AI 的大型语言模型数量比前一年翻了一番，其中三分之二是开源模型，例如 Meta 的 Llama2，但性能最佳的是闭源模型，例如 Google 的 Gemini Ultra。26P品论天涯网

2023年，工业界继续主导人工智能前沿研究。工业界产生了51个值得关注的机器学习模型，而学术界仅贡献了15个。2023年，产学界合作产生了21个值得关注的模型，再创新高。26P品论天涯网

美国领先中国、欧盟和英国，成为顶级人工智能模型的主要来源地。2023年，61个著名的人工智能模型源自美国机构，远远超过欧盟的21个和中国的15个。26P品论天涯网

Gemini Ultra 是第一个在大规模多任务语言理解关键基准测试中达到人类水平表现的 LLM。OpenAI 的 GPT-4也不甘示弱，在 Holistic Evaluation of Language Models 基准上取得了0.96的平均胜率得分，该基准将 MMLU 与其他评估结合起来。26P品论天涯网

不过，人工智能性能的提高是有代价的，报告发现，前沿人工智能模型的开发成本正变得越来越高。据说 Gemini Ultra 消耗了价值1.91亿美元的计算资源，而 GPT-4的开发成本估计为7800万美元。26P品论天涯网

企业对生成式 AI 投资猛增26P品论天涯网

图4.3.1展示了2013年至2023年全球企业人工智能投资趋势，包括并购、少数股权、私募投资和公开发行。全球企业对人工智能的投资连续第二年下降。26P品论天涯网

2023年，总投资下降至1892亿美元，较2022年下降约20%。然而，在过去十年中，企业对人工智能相关投资增加了十三倍。26P品论天涯网

26P品论天涯网

图4.3.3表明，AI 行业吸引了252亿美元的投资，几乎是2022年投资的九倍，是2019年投资额的约30倍。此外，生成式人工智能占2023年所有人工智能相关私人投资的四分之一以上。26P品论天涯网

26P品论天涯网

假如按区域进行比较，美国在人工智能私人投资总额方面再次领先世界。2023年，美国投资额为672亿美元，大约是第二高国家中国投资额（78亿美元）的8.7倍，是英国投资额(38亿美元)的17.8倍(图4.3.8)。26P品论天涯网

26P品论天涯网

谷歌在基础模型竞赛中占据主导地位26P品论天涯网

报告显示，谷歌在2023年发布的基础模型最多，图1.3.16总结了2023年各个机构发布的各种基础模型。Google 发布了最多的模型（18个），其次是 Meta(11个)和 Microsoft(9个)。2023年发布基础模型最多的学术机构是加州大学伯克利分校 (3个)。26P品论天涯网

26P品论天涯网

自2019年以来，Google 发布的基础模型数量最多，共有40个，其次是 OpenAI，有20个（图1.3.17）。清华大学也脱颖而出，发布了七个基础模型，而斯坦福大学是美国领先的学术机构，发布了五个模型。26P品论天涯网

26P品论天涯网

闭源模型优于开源模型26P品论天涯网

图2.11.4和2.11.5将闭源模型与开源模型在选定的基准上进行了对比。在所有选定的基准上，闭源模型的表现均优于开源模型。26P品论天涯网

26P品论天涯网

训练成本26P品论天涯网

关于基础模型，一个绕不开的话题是推理成本。尽管人工智能公司很少透露训练模型所涉及的费用，但人们普遍认为这些成本已达到数百万美元，并且还在不断上升。例如，OpenAI 首席执行官 Sam Altman 曾提到，GPT-4的训练成本超过1亿美元。26P品论天涯网

图1.3.21根据云计算租赁价格直观地显示了与选定 AI 模型相关的训练成本。下图表明近年来模型训练成本大幅增加。例如，2017年 Transformer 模型训练成本约为900美元。2019年发布的 RoBERTa Large 训练成本约为160，000美元。2023年，OpenAI 的 GPT-4和 Google 的 Gemini Ultra 的训练成本预计分别约为7800万美元和1.91亿美元。26P品论天涯网

26P品论天涯网

图1.3.22显示了 AI Index 估计的所有 AI 模型的训练成本。如图所示，随着时间的推移，模型训练成本急剧增加。26P品论天涯网

26P品论天涯网

如图1.3.23所示，对计算训练需求更大的模型需要的训练成本更多。26P品论天涯网

26P品论天涯网

碳足迹26P品论天涯网

图2.13.1显示了选定 LLM 在训练期间释放的碳（以吨为单位）的比较。例如，Meta 发布的 Llama270B 模型释放了约291.2吨碳，这比一位旅客从纽约到旧金山的往返航班所释放的碳排放量高出近291倍，大约是普通美国人一年碳排放量的16倍。然而，Llama2的排放量仍低于 OpenAI GPT-3训练期间报告的502吨排放量。26P品论天涯网

26P品论天涯网

美国在基础模型方面处于领先位置26P品论天涯网

2023年，全球大部分基础模型源自美国（109个），其次是中国(20个)和英国（图1.3.18）。自2019年以来，美国在大多数基础模型的研发方面一直处于领先地位(图1.3.19)。26P品论天涯网

26P品论天涯网

CS 博士毕业生26P品论天涯网

美国和加拿大计算机科学博士毕业生数量十年来首次显著增加。2022年，计算机科学博士毕业生人数达到2105人，为2010年以来最高（图6.1.5）。26P品论天涯网

26P品论天涯网

越来越多的 AI 博士毕业生在工业界寻求职业生涯（图6.1.7和图6.1.8）。2011年，工业界(40.9%)和学术界(41.6%)的就业比例大致相同。然而，到2022年，与进入学术界的人 (20.0%) 相比，毕业后进入工业界的比例 (70.7%) 明显更高。过去5年，进入政府职位的 AI 博士比例一直保持在相对较低的水平，稳定在0.7% 左右。26P品论天涯网

26P品论天涯网

考生类别增加26P品论天涯网

下图所示 AP CS 考生的种族多样性正在增加。虽然白人学生仍然是最大的群体，但随着时间的推移，亚裔、西班牙裔 / 拉美裔等学生参加 AP CS 考试的人数不断增加（图8.3.3）。2022年，白人学生在考生中所占比例最大(38.2%)，其次是亚裔学生(27.8%)(图8.3.3和图8.3.4)。26P品论天涯网

26P品论天涯网

财报电话会议26P品论天涯网

去年，财富500强公司财报电话会议中提及人工智能的次数显著增加。2023年，有394场财报电话会议提到了人工智能（占所有财富500强公司的近80%），高于2022年的266场(图4.4.25)。自2018年以来，财富500强财报电话会议中提及人工智能的次数几乎增加了一倍。26P品论天涯网

26P品论天涯网

涉及的主题非常广泛，最常被提及的主题是生成式人工智能，占所有财报电话会议的19.7%（图4.4.26）。26P品论天涯网

26P品论天涯网

成本下降，收入上升26P品论天涯网

人工智能不仅仅是企业的流行语:麦肯锡的同一项调查显示，人工智能的整合使企业成本下降，收入增加。总体而言，42% 的受访者表示他们的成本降低了，59% 的受访者表示收入增加了。26P品论天涯网

2023年，不同领域的多项研究表明，人工智能使工人能够更快地完成任务，并提高工作质量。其中一项研究考察了使用 C o p il o t 的编程人员，其他研究则考察了顾问、呼叫中心代理和法律专业学生。研究还表明，虽然每个工人都能从中受益，但人工智能对低技能工人的帮助要大于对高技能工人的帮助。26P品论天涯网

26P品论天涯网

企业确实感知到了风险26P品论天涯网

报告对收入至少在5亿美元以上的1000家公司进行了一次全球调查，以了解企业如何看待负责任的人工智能。26P品论天涯网

结果显示，隐私和数据管理被认为是全球最大的风险，而公平性（通常以算法偏见的形式讨论）仍未被大多数公司所重视。26P品论天涯网

一张图表显示，企业正在针对其感知到的风险采取行动:各地区的大多数企业都针对相关风险实施了至少一项负责任的人工智能措施。26P品论天涯网

26P品论天涯网

人工智能还不能在所有事情上击败人类……26P品论天涯网

近年来，人工智能系统在阅读理解和视觉推理等一系列任务上的表现都优于人类，如2015年的图像分类、2017年的基础阅读理解、2020年的视觉推理和2021年的自然语言推理。26P品论天涯网

但在一些复杂的认知任务中，人类的表现仍然优于人工智能系统，如视觉常识推理和高级数学问题解决（竞赛级数学问题），让我们明年再看看情况如何。26P品论天涯网

26P品论天涯网

制定人工智能责任规范26P品论天涯网

当一家人工智能公司准备发布一个大模型时，标准做法是根据该领域的流行基准对其进行测试，从而让社区了解模型在技术性能方面是如何相互叠加的。然而，根据负责任的人工智能基准对模型进行测试的做法并不多见，这些基准主要评估有毒语言输出（RealToxicityPrompts 和 ToxiGen）、反应中的有害偏差(BOLD 和 BBQ)以及模型的真实程度(TruthfulQA)。这种情况正在开始改变，因为人们越来越意识到，根据这些基准检查自己的模型是一件负责任的事情。26P品论天涯网

然而，报告中的一张图表显示，一致性还很欠缺:OpenAI、Google 和 Anthropic 在内的领先开发人员主要根据不同的负责任的 AI 基准测试他们的模型。这种做法使得系统地比较顶级人工智能模型的风险和局限性的工作变得更加复杂。26P品论天涯网

26P品论天涯网