您的位置:主页 > 公司动态 > 公司新闻 > 公司新闻
MIT科技谈论:讯飞星火被评为我国「最聪明」的
国内“千模大战”下,谁是最聪明的大模型?《麻省理工科技谈论》我国最新发布的大模型评测陈述给出了答案。
陈述显现,在8个一级大类的600道标题的测验和盲评中,讯飞星火认知大模型V2.0在6个大类中得分率*,在此次评测中体现杰出,以 81.5 分(百分制计)的成果在本次评测中登顶,荣获“最聪明”的国产大模型称谓。
图:大模型评测归纳得分率
图:4个大模型各项才能雷达图
《麻省理工科技谈论》我国从研制和商业化才能、外界情绪以及发展趋势等维度全方位检测大模型的才能,力求评出“最聪明”的国产大模型。选取了“讯飞星火”、“百度文心一言”、“商汤商议”、“阿里通义千问”作为中文大模型渠道的代表,打开系统、科学的评测。
本次评测运用的测验集包括600道标题,覆盖了言语专项、数学专项、理科归纳、文科归纳、逻辑思想、编程才能、归纳常识、安全性共 8 个一级大类,126 个二级分类,290 个三级标签,并针对问题的丰厚性和多样性做了优化。
在标题类型上,为了统筹定量、定性的点评与测验,设置了“单选”、“多选”、“填空”、“简答”4个题型,别离有 145 道、138 道、136 道和 181 道。大模型评测系统运用盲评方法,客观评价国产大模型的聪明程度。
作为“最聪明”的大模型的根底才能,言语专项评测包括对话了解、多语种、挖苦、古诗词了解、文本生成、关键总结、情感剖析、语义判别等 61 个二级分类,题型则以简答为主。成果显现,讯飞星火 85.73%的得分率*,显着高于均匀值。
图:言语专项评测得分率
数学专项评测,是“最聪明”大模型必不可少的评测维度。本次评测包括代数、几许、解方程、杂乱数学、统计学等 9 个二级分类,以选择题为主。
其间,讯飞星火以77.75% 的得分率名列*,远高于均匀得分率 56%,其他渠道得分率根本适当。陈述称,在大模型遍及“数学欠好”的情况下,讯飞星火这一成果较为可贵,其在数学专项上的*相同体现在二级分类的评分成果上,在 77.8%的二级分类中得分率*,远超其他渠道,开始判别其拿手几许与情形使用。
图:数学专项评测得分率
作为体现大模型“聪明程度”不可或缺的“硬核”部分,理科归纳评测包括表格问答、化学、生物、物理、医学 5 个二级分类,题型上以单选和简答为主。
评测成果中,讯飞星火 78.50% 的得分率*。别的,讯飞星火在理科归纳大类下 80% 的二级分类评测中得分率为*,化学与生物较为杰出。
图:理科归纳评测得分率
逻辑思想也是“最聪明”大模型的重要体现,本次逻辑思想评测在逻辑推理、思想链等方面规划了较多的标题,包括类比、常识推理、空间方位、演绎推理、逻辑错误检测、因果推理等 19 个二级分类,题型上相对均匀,其间填空题最多,多选题最少。
在逻辑思想标题中,讯飞星火 81.25%的得分率名列*,显着高于 72.6% 的均匀值。此外,讯飞星火在逻辑思想 63.2% 的二级分类问题上得分率*。逻辑思想关于大模型真实了解物理国际适当重要。
图:逻辑思想评测得分率
编程才能是大模型比较高阶的才能,本次的编程才能评测包括 ASCII、ASCII码辨认、Python、代码、代码批改、计算机 6 个二级分类,其间 Python 主要以简答方式评价大模型的代码生成才能和正确率,其他则以客观题的方式调查。
成果显现,讯飞星火 80% 的得分率显着高于 71%的均匀值,其他渠道得分率根本适当。值得一提的是,在许多人关怀的生成代码的简答题单项上,讯飞星火的得分率高达 82%,远高于其他渠道,体现较为亮眼。
图:编程才能评测归纳得分率
作为比较难的评测维度,归纳常识对大模型的“聪明”程度要求也很高,触及的标题较杂,包括百科问答、常识、科学常识、现实问答、作业技巧、谜语等 13 个二级分类,题型以多选为主。
在归纳常识评测上,讯飞星火 80.61% 的得分率*,在 84.6% 的二级分类上得分率*,开始显现出在百科问答和前史人文上的“过人之处”。
图:归纳常识评测得分率
陈述指出,在本轮大模型评测中,讯飞星火以 81.5 分的成果拔得头筹,成为“最聪明”的国产大模型。
讯飞星火在编程才能、理科归纳、逻辑思想、数学专项、言语专项和归纳常识这 6 个一级大类中得分率*,在此次评测中体现非常全面,尤其是在代码生成、数学才能、理科与逻辑等方面优势显着,是本次“最聪明的理科生”。
值得一提的是,从题型视点来看,片面简答题中讯飞星火凭仗 83.98% 的得分率位居*;而在客观题上,讯飞星火以 75.7% 的得分率*,在主客观体型中均有杰出体现。
此外,就在8月12日,新华社研究院我国企业发展研究中心发布的《人工智能大模型体会陈述2.0》中,讯飞星火V1.5以总分1013分位列本次国产干流大模型测评榜首位,在四大评测维度中的智商指数和东西提效指数两个维度取得*,《陈述》以为讯飞星火“在作业提效方面优势显着”。
在刚刚曩昔的8月15日,讯飞星火认知大模型V2.0按期发布,进一步打破代码才能和多模态才能。技能取得重大打破的一起,搭载讯飞星火V2.0中心才能的使用和产品也越来越丰厚:既有辅佐程序员高效作业的智能编码帮手iFlyCode1.0、可以进行视频创造的讯飞智作2.0、可以快捷建立轻使用的教育数字基座使用开发帮手,还有协助教师规划教育活动、一键生成课件的星火教师帮手、面向英语学习者白话操练的星火语伴2.0,讯飞AI学习机也晋级AI 1对1智能编程帮手和AI 1对1构思绘画同伴。此外,科大讯飞还和华为联合发布星火一体机,让每一家企业都有时机构建专属大模型。