大模型应用，最重要的是逻辑推理能力｜面壁智能李大海@MEET2024-品论天涯网

声明:本文来自于微信公众号量子位（ID:QbitAI），作者:量子位，授权站长之家转载发布。81H品论天涯网

“一个法律案件的事实是否清晰，与法条之间的关系如何判定，全部都在讲求逻辑。”81H品论天涯网

在MEET2024智能未来大会现场，面壁智能联合创始人、CEO李大海谈到大模型在法律行业的落地时强调了逻辑推理能力的重要性。81H品论天涯网

他认为，AGI革命是与蒸汽革命、电力革命和信息革命并列的第四次技术变革，而作为这场变革的核心技术路线，大模型能够真正落地应用到生产环节中，最重要的就是逻辑推理能力。81H品论天涯网

作为国内最早做大模型的团队，面壁智能在模型训练的过程中，针对逻辑推理做了非常多细致工作，将其拆分成包括归纳、演绎、时间、空间等多个维度，并专门攻克，逐一提升。81H品论天涯网

据介绍，面壁智能的千亿多模态大模型CPM-Cricket可以对标GPT-3.5的水平，同时逻辑推理能力十分突出。在公考行测的逻辑推理试题测试中，CPM的总正确率达到63.76%，甚至超过GPT-4的61.88%。81H品论天涯网

然而，随着各行业和企业都看到了大模型的应用前景和价值，如何才能发挥出大模型的更大潜力，并推动生产力的发展和变革?81H品论天涯网

李大海给出的答案是“大模型+Agent”。81H品论天涯网

他将大模型比做汽车的引擎，为汽车提供动力。但如果想要把汽车造出来，还需要转向系统，需要汽车底盘，以及包括内饰等所有其他组件，才能真正给用户提供一台完整的汽车产品。81H品论天涯网

李大海认为，在大模型这个引擎的基础上还需要叠加一系列上层技术，包括记忆能力、使用工具等，从而带来更多广泛的应用和想象空间，而AI Agent（智能体）就是这一系列技术能力的载体。81H品论天涯网

为了完整体现李大海在“大模型+Agent”赛道的思考，量子位在不改变原意的基础上，对他的演讲内容进行了编辑整理。81H品论天涯网

关于MEET智能未来大会:MEET大会是由量子位主办的智能科技领域顶级商业峰会，致力于探讨前沿科技技术的落地与行业应用。今年共有数十家主流媒体及直播平台报道直播了MEET2024大会，吸引了超过300万行业用户线上参会，全网总曝光量累积超过2000万。81H品论天涯网

演讲要点

大模型要能够真正用在生产环境里，最重要的就是逻辑推理能力81H品论天涯网

大模型是一个新的技术革命，可以跟工业革命、电力革命、信息革命相提并论81H品论天涯网

大模型是底层引擎，想要做好Agent就需要引擎提供强劲的动力输出81H品论天涯网

大模型带来的最根本变化是人和机器关系的变化，二者在未来将变得更平等81H品论天涯网

未来世界将是由智能体连接的Internet of Agents的世界81H品论天涯网

（以下为李大海演讲分享全文）81H品论天涯网

大模型要以逻辑推理为核心能力

面壁智能是从清华大学THUNLP实验室孵化出来的大模型公司，在公司正式成立之前，我们的团队就开始深耕大模型领域。与此同时，我们还发起了OpenBMB的开源社区，在这个社区里面做了很多大模型的开源技术和工具。81H品论天涯网

联合清华大学和OpenBMB开源社区，我们构建了一个“一体两翼”的产学研用大模型生态。81H品论天涯网

面壁智能是国内最早做大模型的团队，全球第一个中文预训练大模型就是我们的团队在2020年12月推出的，叫做CPM-1。2023年11月，我们发布了最新的千亿多模态大模型CPM-Cricket，可以对标GPT-3.5的水平。81H品论天涯网

81H品论天涯网

面壁智能的模型核心能力在于逻辑推理。81H品论天涯网

从成立之初，我们就认识到大模型能够真正落地应用到生产环境里，最重要的就是逻辑推理能力。所以我们在做模型训练的过程中，针对逻辑推理做了非常多细致的工作，将其拆分成包括归纳、演绎、时间、空间等多个维度，并专门攻克，逐一提升。81H品论天涯网

为了测试模型在真实场景中的逻辑推理表现，我们给大模型模拟了过去三年的公考行测试题，结果显示CPM的总正确率达到63.76%，甚至超过GPT-4的61.88%。在英文的GMAT测试中，面壁智能大模型的分数是GPT-4的93%，已经非常趋近，个别题型甚至超过GPT-4。81H品论天涯网

最近，我们在与法律行业客户的合作中可以看到，应用场景非常关注和依赖模型的逻辑推理能力。案件的事实是否清晰，事实与法律条款之间的关系如何判定，全部都是在讲逻辑。经过行业客户的评估，面壁智能的大模型逻辑推理表现最为突出，恰恰符合客户的实际需求。81H品论天涯网

到了今天，我相信大模型的技术路线在整个产业界已形成共识，但大家一定还是会思考，大模型带来的到底是一个像web3这样的技术浪潮，还是十年为期的产业变革。81H品论天涯网

我认为，以大模型为核心的AGI革命是第四次重大技术变革，它可以和蒸汽革命、电力革命、信息革命相提并论，并将至少持续20-30年的时间。若干年后，整个人类社会的生产和生活将会因为AGI革命的演进而发生翻天覆地的变化。81H品论天涯网

“大模型+Agent”创造更多想象空间

大模型就像是汽车的引擎，为汽车提供动力。但如果想要把汽车造出来，还需要转向系统，需要汽车底盘，以及包括内饰等所有其他组件，才能真正给用户提供一台完整的汽车产品。81H品论天涯网

因此，在大模型这个引擎的基础上还需要叠加一系列上层技术，包括记忆能力、使用工具等，从而带来更多广泛的应用和想象空间，而AI Agent就是这一系列技术能力的载体。81H品论天涯网

智能体具有人设、智商、情商、感知力、价值观和成长性六个维度的典型特征，从而适应各种应用场景。同时，为了让单个智能体发挥更强大的能力，还需要把它们连接和协同起来，去处理和完成更复杂的任务。81H品论天涯网

实际上，无论人类社会还是自然界中都有群体智能的典型案例。如同我们需要团队和组织把个人集结起来，自然界中的蜂群、蚁群、鱼群也表现出比单体更高级的智能表现。81H品论天涯网

基于这些思考，面壁智能自2023年6月起就开始布局“大模型+Agent”的技术路线和落地方向，并在过去的几个月里，发布了一系列基于大模型驱动的AI Agent智能体应用框架，我们称之为面壁智能的“AI Agent三驾马车”。81H品论天涯网

第一，是AgentVerse智能体通用平台。81H品论天涯网

它构建了一个丰富的虚拟空间，其中定义了众多智能体专家，具有不同人设和专业能力。81H品论天涯网

当用户提出需求后，智能体专家们立即启动组队流程。这是一个策略性的招募过程，旨在确定哪些专家应当投入特定任务。这些专家组成团队后，开始互相协商任务细节，明确分工。协商完毕便转入执行阶段，每个Agent依据其角色完成相应的工作，然后再进行整合。81H品论天涯网

81H品论天涯网

整个过程中还有一个策略规划者，确保所有智能体的工作协同一致，形成最终成果，并与用户需求进行对照，若存在较大偏差，还可进行迭代改进。这个框架的通用性使我们能够在其基础上开展广泛的工作。81H品论天涯网

第二，是XAgent超强智能体应用框架。81H品论天涯网

它是一个超级智能体，能够针对复杂任务进行拆解，并基于动态指示做任务分布执行。它扮演着智能体专家的角色，根据人的需求做规划，完成用户提出的目标。81H品论天涯网

在这个规划的基础上，如果用户输入的信息不够多，它会与用户交互，收集必要信息。81H品论天涯网

在做完规划后每一步执行的时候，XAgent还会评估执行完每个步骤后是否需要做额外更多的工作，整个过程是一个动态的结构。在基准测试中，XAgent的能力已经全面超越AuotGPT。81H品论天涯网

81H品论天涯网

举个例子，当你向XAgent发出指令“我周末有朋友到访，请为我推荐几个餐厅”，这个超强智能体不会立刻列出一长串餐厅，相反，它会首先探询你的偏好，询问你是否偏爱安静的环境或是特定类型的饮食，以此来理解你的需求。81H品论天涯网

它的第一步是与你互动，而不是立即执行任务;接着，基于你的回复进行餐厅搜索;然后，整理搜索结果，并提出几个带有优缺点分析的方案。方案准备就绪后，它会以可视化的形式呈现，供你选择。一旦你做出选择，它便会通过连接API直接为你预订餐厅。81H品论天涯网

这不同于我们通常所熟悉的单步问答模式，它展现了智能体提供的一种更优质的体验。81H品论天涯网

第三，是ChatDev多智能体协作开发框架。81H品论天涯网

它可以帮助我们构建一个虚拟的AI软件公司，设定CEO、CTO、产品经理、程序员、设计师等不同角色的智能体，并通过一条称为“对话链”的交流网络连接它们。81H品论天涯网

这些角色的互动流程与软件开发中的瀑布模型相契合，包括软件设计、系统测试和文档编制等环节。81H品论天涯网

我们让这些AI智能体按照明确的分工协作，并通过自然语言进行交流和互动，平均最快不到3分钟，平均小于3块钱成本，“不到一杯可乐的时间和钱”就可以完成一个简单的软件开发。81H品论天涯网

81H品论天涯网

在这个工作里，我们还做了一个叫HAI（Human-Agent-Interaction）的功能，让人跟Agent通过自然语言进行交互，通过这种方式也能让智能体得到足够的数据反馈，让他们的工作做得更好，这是我们在刚刚说的在智能体成长性上的一个探索。81H品论天涯网

短短两个多月的时间，ChatDev在GitHub上的星标数量激增，超过1.8万，连续多日位居Trending排行榜首。81H品论天涯网

大模型和Agent之间的耦合性非常重要

面壁智能需要同时把大模型和Agent两件事都做好——81H品论天涯网

因为大模型是底层引擎，想要做好Agent就需要引擎提供强劲的动力输出。81H品论天涯网

实际应用中，发现Agent在哪些方向可能工作得还不够好，就需要在底层能够有实时的反馈，能够及时进行修改和优化。如果完全依赖外部大模型会有很多限制，二者之间的耦合性是非常重要的。81H品论天涯网

当前，我们在“大模型+Agent”这条技术路线上已经有很多场景正在落地。81H品论天涯网

在金融场景，面壁智能和国内头部银行客户进行了深入合作，通过大模型为客户的“智能财富助理”产品提供强大的语言对话能力和逻辑推理能力，解答用户在金融理财等业务咨询中的专业问题。81H品论天涯网

81H品论天涯网

在法律场景，面壁智能打造法律大模型，结合Agent技术为法务人员提供得力助手，针对案件关键点提取、事实点厘清、法律条款梳理等进行辅助工作，从而极大缩短案件处理的时间，提升效率。81H品论天涯网

国内每年大概有3000万左右的案件，但是基层法务人员数量非常有限。经过访谈，我们发现平均每个基层法务人员每天要处理3-4个案子，但这里面包含了很多复杂案件，处理时间会非常长，一个案件需要诉讼可能会排到三、四个月后。这种情况下需要有法律大模型更好地去帮助法务部门大幅提升案件处理的效率。81H品论天涯网

大模型带来的最根本变化是“人与机器之间关系的变化”。它让机器能够像人一样通过自然语言的方式进行交互，并能够进行逻辑思考，处理复杂任务。81H品论天涯网

大模型的出现将会使机器与人的关系变得更加平等，每个人都可以拥有一个AI的伙伴，“大模型+Agent”则能够帮助人们打造更贴心、更懂你的生活智能伙伴。81H品论天涯网

我们相信，未来的世界将是一个由智能体链接的世界，也就是面壁智能所提出的“Internet of Agents”新时代。81H品论天涯网

81H品论天涯网

大模型是第四次技术革命。每一次技术变革都需要花非常长的时间:第一次工业革命花了上百年，信息革命花了大约50多年，我相信AGI革命的时间也不会短。81H品论天涯网

2023只是第一年，相信还有很多问题需要解决和突破，包括任务的规划、多模态、更高级的认知以及更小的模型等等。81H品论天涯网

希望行业里的所有伙伴一起来把这些问题攻克和解决，让整个社会和人们的生活变得更好。81H品论天涯网