人工智能

华尔街日报解析DeepSeek“黑科技”:技术创新助其“弯道超车”

字号+作者:凤凰网科技 来源:凤凰网科技 2025-02-17 15:04 评论(创建话题) 收藏成功收藏本文

2月17日,华尔街日报发文,解析了DeepSeek如何使用较低的开发成本以及性能稍逊的芯片,做到媲美世界上其他最先进的大模型,在一些方面甚至更有优势。也就是“'...

2月17日,华尔街日报发文,解析了DeepSeek如何使用较低的开发成本以及性能稍逊的芯片,做到媲美世界上其他最先进的大模型,在一些方面甚至更有优势。也就是“弯道超车”。以下是DeepSeek的三大“黑科技”:iZ6品论天涯网

一、强化学习iZ6品论天涯网

根据DeepSeek发表的一篇论文,该大模型能够“以少胜多”,是因为其最新的R1模型更大量地依赖一种称为强化学习的技术。在这个过程中,模型利用自身创建并不断调整的奖励系统,从自身行为中获得反馈。iZ6品论天涯网

该模型以现有的大量文本为基础,这些文本被分解成独特的单词、单词片段和标点符号,之后再用不同方式重新组合。这个大语言模型有超过6710亿个可调整的设置,称为“参数”,通过调整这些参数可以决定模型如何回应指令。iZ6品论天涯网


iZ6品论天涯网

模型的参数数量是衡量其规模的一种方式。与传统人工智能模型不同,R1在任何单一操作过程中,只有一小部分可调整设置处于活动状态。活动参数的减少大幅降低了处理所需的功率和计算量,使得该模型能够在更便宜、没那么先进的芯片上运行。iZ6品论天涯网

二、专家混合iZ6品论天涯网

DeepSeek的R1模型通过拆分成多个具有不同专长的网络来工作,这种方法称为“专家混合”。某些指令需要不同的专业知识,为了回答指令,模型只会处理它自己认为最相关的网络。iZ6品论天涯网

相比之下,传统人工智能模型在一种称为监督学习的过程中,依赖大量预先标记的数据集。预先标记工作由人工完成,既昂贵又耗时。家混合技术,大大降低了AI的训练成本。iZ6品论天涯网

三、开源iZ6品论天涯网

DeepSeek的模型还因其开源而独具特色,这意味着公司外部的开发者也可以对其进行重新利用。iZ6品论天涯网

该公司的R1模型在由加州大学伯克利分校研究人员运营的ChatbotArena平台上名列前茅,该平台对人工智能模型进行评分。iZ6品论天涯网

在数学和编码等任务方面,R1的表现优于大多数其他模型。iZ6品论天涯网


iZ6品论天涯网


iZ6品论天涯网

ChatbotArena的数据来自使用其网站的访问者,他们提出问题,从两个匿名人工智能模型获取答案,然后对哪个答案更好进行评分。该网站已对约200个模型收集了超过250万张投票。iZ6品论天涯网

根据人工智能基准测试公司ArtificialAnalysis汇编的数据,DeepSeek为开发人员提供的定价低于其智能类别中的许多其他模型。。iZ6品论天涯网

人工智能模型的开发者向用户收费,例如那些希望将该技术集成到其产品中的企业,收费依据是双方来回传输的数据量——用行业术语来说就是“令牌”数量。iZ6品论天涯网


iZ6品论天涯网

华尔街日报表示,DeepSeek的中国模式在性能和定价上与美国主要AI开发商的模式具有竞争力。iZ6品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]