中文通用大模型评测基准SuperCLUE发布:GPT居首、讯飞星火国内第一
5月9日消息,中文通用大模型综合性评测基准SuperCLUE正式发布。
中文通用大模型基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准,它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。
它主要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型不同任务的效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?
根据首个榜单显示,国内大模型中,近期发布的星火认知大模型最好,总分53.58分,与GPT-4相比有23个百分点的差距,与gpt-3.5-turbo在总分上有13个百分点的差距。
值得一提的是,讯飞星火认知大模型在对话、百科知识、角色模拟、计算能力、语义理解、逻辑推理方面,已经达到GPT 3.5平齐的水准。
在语义理解方面,讯飞星火认知大模型甚至得到100分的满分,超过GPT-4。
据了解,SuperCLUE评测榜单由三部分组成:总榜单、基础能力榜单、中文特性榜单,排行榜会定期更新,可点此访问.
基础能力:包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力。
专业能力:包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力。
中文特性能力:针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等10项多种能力。
总榜单
您可能也感兴趣:
官方微博/微信

每日头条、业界资讯、热点资讯、八卦爆料,全天跟踪微博播报。各种爆料、内幕、花边、资讯一网打尽。百万互联网粉丝互动参与,TechWeb官方微博期待您的关注。

想在手机上看科技资讯和科技八卦吗?
想第一时间看独家爆料和深度报道吗?
请关注TechWeb官方微信公众帐号:
1.用手机扫左侧二维码;
2.在添加朋友里,搜索关注TechWeb。
为您推荐
郭明錤:明年苹果MR头显出货量至多为40万至60万部 低于市场预期
分析师称iPhone 15 Pro系列过热问题与台积电3nm制程工艺无关
OpenAI计划出售价值数亿美元现有股票 估值可能高达900亿美元
中国队拿下杭州第19届亚运会电竞项目首金
途虎养车成功挂牌港交所 京东养车“震虎价”能震住吗?
福特汽车将暂停建设密歇根州电池厂?宁德时代:合作项目正常推进
特斯拉Model 3焕新版上周就已开始运离上海 首批预计下月运抵欧洲
iPhone 15系列初期显示屏订单高于iPhone 14同期 8月份出货量高23%
iPhone 15 Pro Max破发:黄牛反向发红包求退货
更多
- 方程豹豹5详细配置公开:预售30万元起,燃油越野车还怎么玩
- 威联通(QNAP)推出新款 QXG-10G2T 双端口 10GbE 网络扩展卡
- 支付宝持续加大流量开放:首页新上线三块核心场景“入口”
- 日本富士电视台将设立B站国创专属频道 专门播放中国动画作品
- B站发布68部国创片单 COO李旎:未来三年原创投入只增不减
- 中国队拿下杭州第19届亚运会电竞项目首金
- 途虎养车成功挂牌港交所 京东养车“震虎价”能震住吗?
- 网宿安全:WAAP全站防护体系,助力企业提高防护效率30%以上
- 亚马逊投资Anthropic40亿美元 共同推进生成式AI发展
- 力克携汽车裁剪房4.0等多款突破性解决方案 赴2023CISMA之约
更多
- 郭明錤:明年苹果MR头显出货量至多为40万至60万部 低于市场预期
- 分析师称iPhone 15 Pro系列过热问题与台积电3nm制程工艺无关
- OpenAI计划出售价值数亿美元现有股票 估值可能高达900亿美元
- LG电子将推出可折叠屏笔记本电脑 配备17英寸屏幕折叠后12英寸
- 在英国推迟燃油车禁令之后 日产承诺到2030年在欧洲实现全电动化
- 福特汽车将暂停建设密歇根州电池厂?宁德时代:合作项目正常推进
- 特斯拉Model 3焕新版上周就已开始运离上海 首批预计下月运抵欧洲
- 蓝色起源即将换帅:亚马逊资深高管戴夫·利普将接任CEO一职
- iPhone 15系列初期显示屏订单高于iPhone 14同期 8月份出货量高23%
- 苹果iPhone 16系列预计将新增一个电容按钮 代号为Project Nova