中国信通院公布AI代码大模型评估阿里云华为商汤等首批通过

封面新闻记者欧阳宏宇

哪些国产AI大模型能帮人敲出更好的代码？

6月11日，中国信息通信研究院公布了可信AI代码大模型评估的首轮评估名单，阿里云通义灵码、华为云盘古、商汤小浣熊、智谱codegeex等国产AI大模型均入选并首批通过。

据介绍，此次大模型评估以《智能化软件工程技术和应用要求第1部分：代码大模型》标准为依据，围绕通用能力、专用场景能力、应用成熟度，为模型能力提升和企业选型提供规范性参考。

公开资料显示，该标准于今年1月正式发布，涵盖通用能力、专用场景能力和应用成熟度三大部分，包括16个能力项、100多个能力要求，全面从输入多样性、任务多样性、语言完备度、结果可接收性、结果准确度等维度，考核代码大模型的全栈技术能力。

在首轮通过的大模型中，有多个大模型应用获得了4+级的高评级。以通义灵码为例，信通院评测结果显示，在通用能力方面，其在代码转换、代码检查及修复、代码优化等方面表现突出；专用场景方面，通义灵码提供网站开发、数据库开发、大数据开发、嵌入式开发等多个场景支持能力；应用成熟度方面，通义灵码具备较完善的数据合规及数据分类分级机制，且模型稳定性及可维护性表现优异，在模型推理性能、模型服务风险可控性等方面均表现优秀。

公开资料显示，代码大模型首轮评估于今年3月启动，主要面向适用于金融、科技、互联网、电信、软件等各行业，生产、使用或计划使用代码大模型的企业，评估结果旨在为模型厂商提供代码大模型能力的评价和指导标准，以及为模型应用方提供有效衡量其能力水平的标准依据。

加入收藏

标签：