中国信通院发布“方升”大模型基准测试体系
发表于 2024-01-02 13:33:40

当前,大模型正引领着新一轮技术革命,大模型的全方位测评对于开发验证、产品选型和能力提升都至关重要。但是,已有大模型基准测试以评估模型通用能力为主,存在评测方法不统一、评测方式单一、距离实际应用较远等问题。因此,亟需建立一套面向产业应用的大模型基准测试体系,搭建全量测试题库、自动测试平台和高效测试方法,满足大模型能力持续监测和能力迭代的要求。

2023年12月24日,中国信息通信研究院(简称“中国信通院”)发布“方升”大模型评测体系,旨在建立业界大模型基准测试统一的“度量衡”。“方升”测试体系涵盖大模型基准测试的关键四要素,即测试指标、测试方法、测试数据集和测试工具,目前已形成《大规模预训练模型基准测试-总体技术要求》标准。

1704158284942159.png

大模型基准测试体系“方升”

测试指标方面,“方升”测试体系主要针对行业、应用、通用和安全四个维度对大模型进行全面、客观、统一的评估,为了加速大模型应用落地,重点强化了行业和应用导向能力的考查。

在测试方法方面,“方升”测试体系创新性提出自适应动态测试方法,从测试数据标签化、测试题库实时化、测试方案定制化、测试流程自动化四个方面全面提升大模型基准测试质量,重点解决大模型“刷榜”问题。

测试数据方面,“方升”测试体系搭建动态测试数据库,涵盖测试数据集107个,测试数据条数达到123万,联合产业界多家机构首次推出面向行业、通用、应用、安全领域的评测数据集6个。

测试框架与工具方面,中国信通院在构建超自动化测试平台和智能化结果评估系统方面持续发力,探索解决国内外人工智能自动化测试流程中存在的“阻塞点”,全面提高测试效率。

“方升”大模型基准测试体系由中国信通院联合北京智源研究院、认知智能全国重点实验室和天津大学共同发布。此外,国网智能电网研究院、首都之窗、天津大学、中国电信研究院、中国联通软件研究院、华为、甲骨易、海天瑞声、东方财富9家单位成为“方升”大模型基准测试首批合作伙伴。

大模型基准测试不仅是大模型应用开发的终点,更是驱动大模型能力提升的起点。中国信通院诚邀产学研用各方加入“方升”大模型基准测试体系,共同探索人工智能评测创新发展之路,建设科学、客观、中立的人工智能评测基准,为全面提升中国人工智能评测水平贡献力量!

1704158290907093.png

「免责声明」:以上页面展示信息由第三方发布,目的在于传播更多信息,与本网站立场无关。我们不保证该信息(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实,不对您构成任何投资建议,据此操作,风险自担,以上网页呈现的图片均为自发上传,如发生图片侵权行为与我们无关,如有请直接微信联系g1002718958。


 

CSDN官方微信
扫描二维码,向CSDN吐槽
微信号:CSDNnews
微博关注
【免责声明:CSDN本栏目发布信息,目的在于传播更多信息,丰富网络文化,稿件仅代表作者个人观点,与CSDN无关。其原创性以及文中陈述文字和文字内容未经本网证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本网不做任何保证或者承诺,请读者仅作参考,并请自行核实相关内容。您若对该稿件有任何怀疑或质疑,请立即与CSDN联系,我们将迅速给您回应并做处理。】