近日,上海合合信息科技股份有限公司(简称“合合信息”)TextIn“大模型加速器 2.0”版本正式上线,凭借其多维度升级,为降低大模型“幻觉”风险、推动大模型精准应用提供了强大助力。
训练数据是影响大模型“认知能力”的关键,合合信息“大模型加速器 2.0”基于领先的智能文档处理技术,从数据源头入手,对复杂文档的版式、布局和元素进行精准解析及结构化处理,让大模型在与人类沟通中“更靠谱”。
(“大模型加速器 2.0”文档解析引擎助力知识库理解手写笔记示意图)
升级后的“大模型加速器”在多方面实现新突破。在复杂版面理解、表格及图表处理、内容溯源等能力上表现卓越。它能精准识别上千种文档中的跨页表格、合并单元格、密集表格、手写字符及公式,解析稳定率达99.99%,单页处理耗时较行业可比产品降低超30%;还可“逆还原”十余种专业图表数据,转化为大模型可理解的结构化数据。此外,新增知识库系列开源组件,助力医疗、制造、教育等行业开发者构建个性化知识库。
在教育领域,大模型需要不断“吸收”正确的专业知识才能应对实际应用问题。赛尔教育科技发展有限公司CTO杨林提到,教育行业文档格式多样,包含表格、公式、手写字符、多语言文字等信息,高效准确提取文本信息并非易事。合合信息文档解析技术为教育行业大模型建设提供了专业支持,在“大模型加速器”的支持下,合合信息与赛尔教育共同协作,提升大模型对复杂版面、元素的“理解力”,减少AI“幻觉”现象。其图表解析模块可智能提取多种图表中的关键数据点等,还原为完整的Excel表格数据,作用于教育行业大模型微调、学科知识库建设、智能审阅等环节。
(知识库对财报数据所在表格进行精准溯源)
在金融行业,多家券商机构接入大模型以提高工作效率。“大模型加速器 2.0”上线知识库产品组件,支持复杂文档的智能问答、总结与检索。为保障行业“安心”使用大模型,知识库产品推出溯源功能,通过在文件中标记空间位置信息,实现对句子、段落的精确溯源。以财务分析为例,券商分析师可利用溯源功能定位原表格,对信息进行复核,防止错误、遗漏。
目前,知识库组件已面向开发者开源,此前合合信息已开源智能文档处理“百宝箱”系列产品,未来“大模型加速器”将持续优化迭代,助力大模型在各行各业中“百花齐放”。
