时事

大模型商用新解法:CVP架构崛起,向量数据库破圈

字号+作者:Zilliz 来源:AI科技评论 2023-07-04 13:23 评论(创建话题) 收藏成功收藏本文

继云厂商、模型商、开发者后,数据库玩家入局大模型。ChatGPT「涨不动了」?最近,ChatGPT用户增长放缓的消息刷屏科技圈,环比增长率从一月份的131%降至五月份'...

继云厂商、模型商、开发者后,数据库玩家入局大模型。bly品论天涯网

ChatGPT「涨不动了」?bly品论天涯网

最近,ChatGPT用户增长放缓的消息刷屏科技圈,环比增长率从一月份的131%降至五月份2%。bly品论天涯网

数据的背后,是一次业界焦点的大转移:从对AIGC大模型技术的狂热,转移到对商业化落地效果的审视。bly品论天涯网

生产力工具是目前大模型落地的重要方向。但面向垂域应用,仅依靠大模型自身的训练数据集做支撑,难以达到生产可用的效果。bly品论天涯网

围绕这一问题,也形成了两大流派,传统流派将垂域/私域内容补充至训练集,即单模型架构;新兴流派引入向量数据库为大模型提供长短期记忆,集成领域知识库,即ChatGPT+VectorDB+Prompt(CVP)架构。bly品论天涯网

bly品论天涯网

CVP架构的兴起让向量数据库这个新的数据库品类站上了风口浪尖。bly品论天涯网

全球最火的开源向量数据库项目Milvus在Github的标星已经突破2万,官方显示,目前Milvus已经拥有超过1000+中大型企业用户。bly品论天涯网

作为Milvus的原厂,Zilliz已经完成1.13亿美元融资,并全面启动商业化步伐,为大模型落地提供向量数据库全栈产品与服务。bly品论天涯网

我们联系到Zilliz合伙人兼产品负责人郭人通博士,和他一同探讨向量数据库所带来的大模型应用变革。bly品论天涯网

bly品论天涯网

郭人通博士表示,CVP架构相比单模型架构在灵活性、可扩展性、实时性、成本四个维度都有明显优势。最关键的原因是在CVP架构中,领域知识以数据入库的形式进行更新,而非重新训练或微调模型。bly品论天涯网

目前,国内大模型的综合能力与GPT-4还有代差,但现在已经走到了产业落地的早期,业界真正关心的是业务效果。bly品论天涯网

Zilliz的团队研究发现,CVP架构中哪怕仅使用GPT3.5或一些头部开源模型,其端到端效果也明显优于GPT-4。bly品论天涯网

在这个框架下,除了要拼模型能力,更要拼知识库的构建能力、模型与知识库的集成水平,这也为国产化大模型提供了一次在落地阶段弯道超车的机会。bly品论天涯网

在不更改原意的基础上,我们对郭人通博士的交流内容进行了梳理,希望能为大家带来一些思考或实践上的帮助。bly品论天涯网

1bly品论天涯网

ChatGPTisNOTallyouneedbly品论天涯网

提问:向量数据库对很多用户和开发者还是一个比较新的概念,能否讲一下向量数据库与传统数据库的关键差异?bly品论天涯网

郭人通:传统数据库应用中,需要把业务侧的数据结构化成数值、字符串,但目前业务侧沉淀下来的数据超过八成是非结构化的,例如长文本、图片、视频、音频、社交关系等,我们要应用这些「新」数据,主要手段是通过深度神经网络对这些数据进行「理解」,把语义信息编码成向量。bly品论天涯网

向量数据库是以向量为核心数据类型的新型数据库系统,支持大规模向量数据的存储、分析、查询任务,同时兼顾面向数值、字符串的混合查询分析能力。围绕向量化的数据表示,向量数据库提供了一套统一的非结构化数据应用技术,使我们的数据应用不再局限于数值和字符串所能表达的语义范围。bly品论天涯网

提问:为什么CVP架构相比单模型架构有更强的落地优势?bly品论天涯网

bly品论天涯网

郭人通:目前有两个流派,传统流派希望模型具有端到端的能力,并将业务相关的数据补充至训练数据集。这在小模型时代成本还可以接受,但在大模型时代,想找到一种途径将垂域、私域、或实时知识更新到模型参数中,同时成本可控,是相当困难的。基于这个考虑,领先的大模型厂商,如OpenAI和GoogleBard等,都选择了向量数据库为大模型提供长短期记忆的CVP技术路线。bly品论天涯网

在CVP架构中,我们通过向量数据库为大模型补充一个外部记忆体。其中C作为运算单元,提供逻辑分析和自然语言对接的能力,V作为存储单元,提供稳定准确、高容量、高可扩展的知识,P在前两者的基础上,提供面向具体业务的适配能力。这和我们人脑工作模式比较类似,我们不会去试图记忆所有知识,书本作为知识载体比记忆更可靠,同时人脑以查询书面知识的方式完成任务。bly品论天涯网

提问:目前向量数据库在大模型时代有哪些典型的应用场景?bly品论天涯网

郭人通:早期看最有潜力的是生产力工具这个方向,B端和C端都有不少实际的场景:bly品论天涯网

1.文本创作。bly品论天涯网

这是直接关联的一类应用,典型场景包括:文书生成,社交媒体UGC,SEO广告,游戏任务剧本创作等。所有这些场景都需要在垂类细分中追求差异化优势,同时业务中积累的内容也可以直接转化为知识库层面的资产。bly品论天涯网

2.聊天机器人。bly品论天涯网

可以确定,ChatGPT为代表的LLM一定会彻底革新现有的聊天机器人系统。典型场景包括:客服,虚拟人,个人助手,游戏NPC等。在CVP框架下构建的聊天机器人不再需要树状问题分类规则,而是最自然的问答形式。比较典型的是客服系统,人工客服的问答会持续地向知识库积累,最终机器人的能力会向所有客服能力总和的位置收敛。bly品论天涯网

3.搜索引擎。bly品论天涯网

这个方向的冲击毋庸置疑,微软通过一套组合拳已经向谷歌发起挑战。除了大型搜索引擎,传统的文档搜索也会进行一次升级。基于关键字匹配的搜索会升级至以语义匹配为基础,同时兼顾图文等多模态检索能力。这也是Milvus与ElasticSearch的典型赋能差异。bly品论天涯网

4.专业领域。bly品论天涯网

这个方向的工具主要解决专业领域菜鸟速成老鸟,以及老鸟生产力翻倍的问题。包括法律政策、知识产权保护、保险、金融投资、医疗、教育等。相比上述几类场景,这类场景更加低频,且更加需要精准可靠的专业知识加持。否则就会出现前些日子美国律师使用ChatGPT,导致引用杜撰的案件等问题。bly品论天涯网

提问:CVP框架下的实践工作目前处于什么阶段?对国内大模型落地的机会如何?bly品论天涯网

郭人通:我关注到的类似的探索活动最早在去年6月份就有了,主要是在学术界。目前工业界的实践还在很早期的阶段,OpenAI的动作是从今年3月份才开始的,提供了一套插件机制集成外部知识。在应用方面,现在的CVP主要以单轮知识召回为主,很类似传统推荐系统,差异点在于末尾加了大模型的能力做内容总结。bly品论天涯网

关于效果,我们团队在近期推出的OSSChat项目(一个面向开源社区的文档知识库)中进行过实践论证。由CVP框架加成的GPT-3.5端到端应用效果可以轻松击败GPT-4单模型能力。这意味着应用开发者可以在CVP框架中探索两个关键问题的答案:bly品论天涯网

bly品论天涯网

如何解决国产大模型与GPT-4的代差问题。bly品论天涯网

如何使用小成本模型或多模型混合降低数据应用的综合成本。bly品论天涯网

业界真正关心的是业务效果。在这个框架下,除了要拼模型能力,更要拼知识库的构建能力、模型与知识库的集成水平,这也为国产化大模型提供了一次在落地阶段弯道超车的机会。bly品论天涯网

2bly品论天涯网

多阶段赋能应用落地bly品论天涯网

提问:Zilliz作为Milvus的原厂,同时提供了开源和商业化解决方案,可以简单介绍一下两者定位的差异吗?bly品论天涯网

郭人通:Zilliz向开发者与用户提供了开源与云服务多重解决方案,全面覆盖不同场景的需求。从AIGC个人应用开发到大型企业向量数据平台,从国内业务到跨境业务,从成本优先到性能优先,Zilliz都提供了最专业的解决方案。bly品论天涯网

Milvus支持三种部署规模:MilvusLite面向本地原型快速构建,pipinstall一键安装,算法工程师友好。MilvusStandalone面向单物理机服务部署,维护便捷,适合小规模服务。MilvusCluster面向大规模集群部署,适合大型企业用户在私有环境构建向量数据搜索平台。bly品论天涯网

相比开源方案,云服务提供了多重关键能力:bly品论天涯网

云服务采用商业版引擎,性能超越开源版3倍以上。同等的高QPS场景,所需硬件成本降至开源方案的1/3到1/5。bly品论天涯网

99.9%高可用,稳定支持10亿及以上规模向量数据。bly品论天涯网

软硬件高度适配,提供性能型、容量型、经济型三类实例类型,满足不同维度的业务需求。bly品论天涯网

AutoIndex智能索引,面向负载与数据分布自动化性能调优,进一步提升性能一倍以上,免去手工系统调优之苦。bly品论天涯网

ZillizCloud面向AIGC个人开发者或小型团队量身打造了StarterPlan。Zilliz关注到AIGC开发者数量已经到达千万量级,为了支撑AIGC应用在孵化期对于快速验证、快速迭代的需求,Zilliz为每位用户提供一个免费的Serverless实例,服务开箱即用,可支持百万向量规模的知识库检索。上手门槛与成本甚至低于MilvusLite。bly品论天涯网

ZillizCloud同样提供PaaS服务,适合注重数据隐私、数据安全与合规的企业。用户可以在其虚拟私有云(VPC)上部署全托管的ZillizCloud向量数据库服务。bly品论天涯网

提问:目前有大量的用户在使用开源的Milvus系统,大家可能比较关心的问题是,在Zilliz商业化阶段,Milvus的开源路线是否会有变化?bly品论天涯网

郭人通:「好的系统和产品不是设计出来的,而是用出来的。」是Zilliz在开发产品过程中一以贯之的最重要的原则。我对这条原则的解释是「与开发者接触面积最大化」。bly品论天涯网

Milvus坚定的走开源路线,是该原则的重要实践。5年的时间,Zilliz团队与几千家企业用户,上万名开发者建立了深度的联系。凭借来自众多行业社区用户的广泛反馈,Milvus已成为全球迭代速度最快、最成熟的的开源向量数据库系统。bly品论天涯网

在商业化产品中,ZillizCloud为每一位用户提供免费的Serverless实例,可稳定支持百万量级向量数据。根据我们对用户数据的统计,该容量可支撑超过90%的早期用户需求。Zilliz团队在商业化路线中贯穿「与开发者接触面积最大化」、「社区共建最快速产品迭代」这一理念。对于一个数据库系统的演进旅程,5年尚早,Zilliz还将继续和社区一道,进行向量数据库技术与产品领域的前沿探索,不断刷新最佳实践。bly品论天涯网

提问:在CVP框架中,向量数据库与大模型是互生的关系,在C-V两侧生态对接方面有什么动作吗?bly品论天涯网

郭人通:为了进一步降低应用构建成本,提供标准化组件,Zilliz已与全球头部大模型生态完成了C-V间对接。2023年3月,Zilliz作为OpenAI首批向量数据库合作伙伴,完成了Milvus与ZillizCloud插件化集成,作为官方推荐的向量数据库插件提供给广大应用开发者。此外,Zilliz还与LangChain、Cohere、LlamaIndex、Auto-GPT、BabyAGI等热门项目进行了深度集成。与国产大模型的对接工作正在进行中,预期会在近一个月开放。bly品论天涯网

3bly品论天涯网

量身定制的AIGC特性支持bly品论天涯网

提问:ZillizCloud近期发布了2.0版本,同时Milvus发布了2.3版本,在这些最近的版本中,有哪些面向AIGC应用的新特性?bly品论天涯网

郭人通:ZillizCloud在近期的重要版本更新中,添加了一系列面向AIGC应用构建的关键特性。涵盖数据的灵活表示、面向ToC业务用户粒度知识库的支持、更高效的混合查询与过滤等。bly品论天涯网

动态schema。此前向量数据库采用静态schema的方式,需要开发者在建表时根据业务定义数据的schema。这对于大型企业的成熟业务是一种常见的方式。然而,当下AIGC应用多处于早期快速迭代阶段,面向业务效果,需要频繁调整向量数据库内的字段,对于这类需求,反复重建schema结构以及频繁的数据重导入会严重影响产品的迭代速度。因此,ZillizCloud引入动态schema的能力,支持用户根据迭代需要,动态灵活的进行字段插入。bly品论天涯网

PartitionKey。PartitionKey特性是原有Milvuspartition功能的升级,逻辑partition的数量不再受到限制。在业务层面,目前大量AIGC应用是ToC的,因此一些业务需要为每一个用户建立一个独立的知识库(例如问答历史)。在先前的方案中,需要为每个用户建立独立的向量数据库表以及索引,成本上基本无法满足要求。在新的方案中,用户可以将所有用户数据放置于同一张表,并为每个用户赋予不同的PartitionKey,在表内实现用户分桶隔离。相比单独建表方案,综合成本可下降两到三个数量级。除了这类场景,用户还可以通过PartitionKey实现数据按时间区间或类别分组,并在此基础上有效降低数据的查询范围,实现高效的查询与过滤。bly品论天涯网

JSON类型的支持。JSON是目前最流行且最灵活的数据表示方式之一。目前,Zilliz团队将半个Mongo的能力搬进了向量数据库,用户在ZillizCloud可以将JSON与embedding这两种超强能力相结合,实现基于JSON与embedding向量的混合数据表示以及复杂的业务逻辑。bly品论天涯网

提问:在接下来的版本中,会有哪些相关的重磅特性发布?bly品论天涯网

郭人通:在接下来的版本更新中,ZillizCloud会大幅增强向量表示与混合查询能力:bly品论天涯网

稀疏向量。目前,Milvus与ZillizCloud仅支持稠密向量表示,接下来会支持稀疏向量。稀疏向量可以更直接的表示离散化特征分量,并支持在具体特征集合上的向量化分析与查询。这对于传统ML的应用,或传统ML与深度学习相结合的应用至关重要。bly品论天涯网

多向量混合查询。对于同一对象具有多模态,或同模态多角度描述的数据应用来讲,需要对同一对象构建多个向量进行语义描述。多向量混合查询能力可以在同时面向多个模态或多个角度对应的向量进行分析查询,从而提升业务效果。bly品论天涯网

向量数组。这类向量化数据表示主要面向序列数据,如音频、视频、长文本。通常需要对这些数据进行分片处理,如每一秒采集一个关键帧获得embedding向量,或从文本的一个分片获得embedding向量。每一条序列数据都对应的表示为一个有序的(或bagofvectors)向量数组。数据的分析与查询同样在数组这个粒度进行,因此可以在业务中更好的引入序列数据的整体语义。bly品论天涯网

4bly品论天涯网

国内的服务覆盖计划bly品论天涯网

提问:ZillizCloud在国内会有产品发布计划吗?bly品论天涯网

郭人通:目前国内AIGC大模型与应用发展的如火如荼,但遗憾的是,目前仍然缺乏专业的向数据库服务。用户要么需要基于开源方案自建,要么需要使用北美的云服务,两种方式都带来的较高的综合成本。bly品论天涯网

ZillizCloud云服务已覆盖AWS,GCP。从2023年7月开始,向量数据库服务会在国内公有云全面铺开。7月初即将发布的版本中,将支持阿里云、百度云、腾讯云以及金山云。预期价格相比北美服务会有较大幅度的下调,致力于为国内用户提供具有最高专业度及最高性价比的全托管向量数据库服务。ZillizCloud国内云服务目前已支持企业用户PoC申请(申请联系方式见文末)。bly品论天涯网

提问:目前国内CVP框架实践还都在早期,Zilliz团队有相应的用户支持计划吗?bly品论天涯网

郭人通:为了加速打磨业界最佳实践,我们即将启动「CVP实践之星」活动,Zilliz将联合国内头部大模型厂商一同甄选应用场景,由双方提供向量数据库与大模型顶级技术专家为用户赋能,一同打磨应用效果。如果你的应用也适合CVP框架,且正在为应用效果发愁,可直接申请参与活动。bly品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]

相关文章