表现优异!百度智能云VectorDB首批完成中国信通院向量数据库性能测试
发表于 2025-05-08 14:48:35

百度全自研的分布式向量数据库产品VectorDB亮相Create 2025百度AI开发者大会展区。作为一款纯自研可支持百亿向量的数据库服务,VectorDB基于自研的向量数据库内核系统构建,为各行各业的AI应用开发提供了强有力的基础设施支持。

图片1.jpg

百度智能云数据库亮相Create 2025展区

"我们专门为向量重新设计的存储和索引结构,能够实现更高的性价比和弹性。轻松扩展以支持海量高维向量数据存储和检索,支持百亿级向量规模和十万级分片数量,同时提供高性能的访问能力;简洁的访问接口、全面的检索能力架构和数据引擎多方面工程优化,让各场景性能均高于开源产品7倍;同时兼容丰富的上下游生态,满足客户在企业级知识库,图片搜索,音乐推荐,文本分类等领域落地的需求。"Create展区现场讲解老师表示。

日前在中国信通院“可信数据库”首批向量数据库性能测试中,百度智能云VectorDB顺利完成了向量数据库产品性能测试,成为国内首批完成测试的向量数据库产品。测试为了能够更贴切地评估和模拟各产品在信创环境下的实际性能,全程在符合信创标准的环境下进行。测试中,百度智能云VectorDB完成了所有向量检索场景(例如稠密向量检索、多向量检索、标量向量融合检索)的性能测试。从测试结果来看,在百万和亿级稠密向量检索性能测试中,产品性能表现优异,满足企业生产要求。

作为专为人工智能应用设计的数据库产品,百度智能云VectorDB采用分布式架构,自研的引擎具备强⼤的数据处理能力,被誉为产品核⼼;同时提供多种检索功能,满足不同应用场景的需求,为用户提供了在不同场景下的选择空间,可以根据成本、性能和召回率需求进行权衡选择。VectorDB作为企业级产品,在易用性、安全性以及弹性可用等方面也表现出色,并全面支持私有化部署需求,私有化产品能力完全对标公有云版本,例如基于DBStack的私有化架构,全栈支持跨AZ高可用、支持国产化信创环境。

值得一提的是该产品还提供了强大的生态组件,进⼀步扩展其应用场景,例如AI Search。AI Search是⼀套完整的RAG解决方案,主要应用于知识库的向量化检索与管理场景,通过集成文档管理、解析、嵌⼊服务和检索等模块,用户可以快速构建专属的知识检索和生成系统。例如凭借该向量数据库平台的部署,某大型国有银行内部原有知识孤岛问题得到有效解决,知识检索效率提升超过80%,大幅降低了一线员工获取复杂业务知识的时间成本。目前该系统已支持多条业务线,日均调用量达数十万次,显著增强了银行数字化运营能力与智能化服务水平。

如今VectorDB已实现与多个平台和框架的集成,支持从Milvus离线迁移数据;支持千帆AppBuilder、LangChain、LlamaIndex、Dify等主流框架;提供AI Search SDK,支持高层次RAG框架封装,集成文心Embedding模型,基于百度中文语料并加入知识图谱进行训练,中文实体和短语性能更好。

此外VectorDB同时适用于多种AI应⽤场景,例如信息相似度检索。支持百亿级向量数据检索,提供多模语义检索能力,适用于文档和图片的智能检索,从容面对多模态多维度向量的实时存储与检索、高性能全库更新、云端/客户端协同检索等挑战。在大模型对话场景中,产品可以实时存储和检索会话数据,有效降低幻觉情况,提升问答准确性。通过百亿级高维向量实时存储和高并发毫秒级混合检索能力,应对ANN索引优化、弹性扩展集群、索引监控与切换等技术挑战。

另外VectorDB还为私有云环境下的私域知识库构建提供了强大支持,例如统一的向量数据全生命周期管理、多模私域数据存储和检索管理、数据Embedding管理以及混合检索能⼒等,解决了向量模型版本管理、复杂查询条件支持和私有化部署等技术挑战。某大型证券公司,基于向量数据库成功构建智能投研与合规知识问答平台。系统将研究报告、公司公告、法规文件、投资策略文档等非结构化数据进行向量化处理,打通多个业务部门之间的信息壁垒,提升内部知识复用效率。通过该平台,证券公司的投研人员能够实现快速检索与语义匹配,大幅提高了投研报告的撰写效率和合规审核准确性;合规部门亦可借助智能问答助手,快速定位相关法规条款和过往案例,审核时长缩短40%,整体投研与合规协作效率提升超过50%。项目落地后,有效强化了风控合规体系,支撑了其智慧证券业务的战略转型。

《向量数据库性能测试方法》是中国信通院云计算与大数据研究所依托中国通信标准化协会大数据与区块链工作组(CCSA TC1 WG6)以及大数据技术标准推进委员会(CCSA TC601),联合超过20家企业专家参与编制的技术标准。该标准覆盖稠密向量检索、多向量检索、标量向量融合检索3种常见向量检索场景,评估指标涵盖索引构建时间、QPS、平均时延、最大时延、P99时延、CPU占用、内存占用等多个维度。向量数据库产品性能测试融合了国内行业专家丰富的实践经验与智慧,是对向量数据库性能的综合评判,旨在为供给侧研发和应用侧选型向量数据库提供参考。

CSDN官方微信
扫描二维码,向CSDN吐槽
微信号:CSDNnews
微博关注
【免责声明:CSDN本栏目发布信息,目的在于传播更多信息,丰富网络文化,稿件仅代表作者个人观点,与CSDN无关。其原创性以及文中陈述文字和文字内容未经本网证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本网不做任何保证或者承诺,请读者仅作参考,并请自行核实相关内容。您若对该稿件有任何怀疑或质疑,请立即与CSDN联系,我们将迅速给您回应并做处理。】