IBM 正在从根本上简化面向 AI 的数据堆栈。IBM 在Think大会上预览 watsonx.data 的重大演进,以帮助组织做好数据准备为AI所用,同时提供一个开放的混合数据基础架构和企业级的结构化和非结构化数据管理。
测试结果显示,与传统RAG相比,IBM watsonx.data的AI准确性提高了40%。IBM于6月推出的产品和功能包括:
· watsonx.data integration(集成),该软件可在单个界面中编排不同集成样式和格式的数据访问和工程设计,其核心是灵活性和规模
· watsonx.data intelligence(智能),该软件可改变组织处理、管理和利用有意义数据的方式,利用 AI 的力量简化数据治理
· 在 Meta 的 Llama Stack 中增加 watsonx 作为 API 提供商,增强了企业大规模部署生成式 AI 的能力,并以开放性为核心
watsonx.data 集成和 watsonx.data 智能将作为独立产品提供,部分功能也将通过 watsonx.data 提供,从而最大限度地提高客户选择和模块化程度。
为了补充这些产品,IBM 近期宣布了收购 DataStax 的意向,DataStax 擅长将非结构化数据用于生成式AI。借助 DataStax,客户可以访问其他矢量搜索功能。
基于内部测试,对比使用 watsonx.data Premium Edition 检索层与仅矢量 RAG 在三个常见用例中 AI 模型输出答案的准确性,测试使用 IBM 专有数据集,采用相同的选定开源通用推理、评估和嵌入模型以及额外变量。测试结果可能因具体情况而异。
这一重大演进的背景
企业正面临着实现准确且高性能的生成式AI——尤其是具有自主决策能力的智能体AI人的重大障碍,但该障碍并非如大多数企业领导者所想。
问题不在于推理成本或难以捉摸的“完美”模型。问题在于数据。
企业需要可信且具有公司特性的数据,才能让智能体AI真正创造价值——这些数据存在于电子邮件、文档、演示文稿和视频等非结构化数据中。据估计,2022年企业产生的数据中90%是非结构化数据,但IBM预测其中仅有1%为大型语言模型(LLMs)所用。
非结构化数据的利用往往面临巨大挑战。这类数据分布广泛且动态变化,存储于多种格式中,缺乏清晰的标签,且常需额外上下文才能完整解读。传统检索增强生成(RAG)技术难以有效提取其价值,也无法妥善整合非结构化与结构化数据。
与此同时,各类孤立的工具会使AI数据处理架构变得复杂且繁琐。企业需要同时管理数据仓库、数据湖以及数据治理和数据集成工具。数据架构可能与它本应管理的非结构化数据一样令人困惑。
许多组织并未解决根本问题。它们仅关注生成式AI的应用层,而非其下方的核心数据层。除非组织修复其数据基础架构,否则AI智能体和其他生成式AI计划将无法充分发挥其潜力。
帮助组织实现数据的AI就绪
IBM提供的新功能将使组织能够采集、治理和检索非结构化(及结构化)数据——在此基础上,实现准确、高性能的生成式AI的规模化应用。
