智能体AI面临非结构化数据难题:IBM推出解决方案
发表于 2025-06-30 15:24:18

IBM 正在从根本上简化面向 AI 的数据堆栈。IBM 在Think大会上预览 watsonx.data 的重大演进,以帮助组织做好数据准备为AI所用,同时提供一个开放的混合数据基础架构和企业级的结构化和非结构化数据管理。

测试结果显示,与传统RAG相比,IBM watsonx.data的AI准确性提高了40%。IBM于6月推出的产品和功能包括:

· watsonx.data integration(集成),该软件可在单个界面中编排不同集成样式和格式的数据访问和工程设计,其核心是灵活性和规模

· watsonx.data intelligence(智能),该软件可改变组织处理、管理和利用有意义数据的方式,利用 AI 的力量简化数据治理

· 在 Meta 的 Llama Stack 中增加 watsonx 作为 API 提供商,增强了企业大规模部署生成式 AI 的能力,并以开放性为核心

watsonx.data 集成和 watsonx.data 智能将作为独立产品提供,部分功能也将通过 watsonx.data 提供,从而最大限度地提高客户选择和模块化程度。

为了补充这些产品,IBM 近期宣布了收购 DataStax 的意向,DataStax 擅长将非结构化数据用于生成式AI。借助 DataStax,客户可以访问其他矢量搜索功能。

基于内部测试,对比使用 watsonx.data Premium Edition 检索层与仅矢量 RAG 在三个常见用例中 AI 模型输出答案的准确性,测试使用 IBM 专有数据集,采用相同的选定开源通用推理、评估和嵌入模型以及额外变量。测试结果可能因具体情况而异。

这一重大演进的背景 

企业正面临着实现准确且高性能的生成式AI——尤其是具有自主决策能力的智能体AI人的重大障碍,但该障碍并非如大多数企业领导者所想。

问题不在于推理成本或难以捉摸的“完美”模型。问题在于数据。

企业需要可信且具有公司特性的数据,才能让智能体AI真正创造价值——这些数据存在于电子邮件、文档、演示文稿和视频等非结构化数据中。据估计,2022年企业产生的数据中90%是非结构化数据,但IBM预测其中仅有1%为大型语言模型(LLMs)所用

非结构化数据的利用往往面临巨大挑战。这类数据分布广泛且动态变化,存储于多种格式中,缺乏清晰的标签,且常需额外上下文才能完整解读。传统检索增强生成(RAG)技术难以有效提取其价值,也无法妥善整合非结构化与结构化数据。

与此同时,各类孤立的工具会使AI数据处理架构变得复杂且繁琐。企业需要同时管理数据仓库、数据湖以及数据治理和数据集成工具。数据架构可能与它本应管理的非结构化数据一样令人困惑。 

许多组织并未解决根本问题。它们仅关注生成式AI的应用层,而非其下方的核心数据层。除非组织修复其数据基础架构,否则AI智能体和其他生成式AI计划将无法充分发挥其潜力。 

帮助组织实现数据的AI就绪 

IBM提供的新功能将使组织能够采集、治理和检索非结构化(及结构化)数据——在此基础上,实现准确、高性能的生成式AI的规模化应用。

CSDN官方微信
扫描二维码,向CSDN吐槽
微信号:CSDNnews
微博关注
【免责声明:CSDN本栏目发布信息,目的在于传播更多信息,丰富网络文化,稿件仅代表作者个人观点,与CSDN无关。其原创性以及文中陈述文字和文字内容未经本网证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本网不做任何保证或者承诺,请读者仅作参考,并请自行核实相关内容。您若对该稿件有任何怀疑或质疑,请立即与CSDN联系,我们将迅速给您回应并做处理。】