中文通用大模型评测基准SuperCLUE发布:GPT居首、讯飞星火国内第一
5月9日消息,中文通用大模型综合性评测基准SuperCLUE正式发布。
中文通用大模型基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准,它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。
它主要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型不同任务的效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?
根据首个榜单显示,国内大模型中,近期发布的星火认知大模型最好,总分53.58分,与GPT-4相比有23个百分点的差距,与gpt-3.5-turbo在总分上有13个百分点的差距。
值得一提的是,讯飞星火认知大模型在对话、百科知识、角色模拟、计算能力、语义理解、逻辑推理方面,已经达到GPT 3.5平齐的水准。
在语义理解方面,讯飞星火认知大模型甚至得到100分的满分,超过GPT-4。
据了解,SuperCLUE评测榜单由三部分组成:总榜单、基础能力榜单、中文特性榜单,排行榜会定期更新,可点此访问.
基础能力:包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力。
专业能力:包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力。
中文特性能力:针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等10项多种能力。
总榜单
您可能也感兴趣:
官方微博/微信

每日头条、业界资讯、热点资讯、八卦爆料,全天跟踪微博播报。各种爆料、内幕、花边、资讯一网打尽。百万互联网粉丝互动参与,TechWeb官方微博期待您的关注。

想在手机上看科技资讯和科技八卦吗?
想第一时间看独家爆料和深度报道吗?
请关注TechWeb官方微信公众帐号:
1.用手机扫左侧二维码;
2.在添加朋友里,搜索关注TechWeb。
为您推荐
华硕竟然推出了一款能装硬盘的显卡
外媒称特斯拉上海超级工厂37秒下线一辆整车 远快于得克萨斯超级工厂
消息称AMD Instinct MI300系列出货量预计将达到30-40万颗
消息称字节跳动开启新一轮回购 最新估值约2680亿美元
买工厂、拉央企入局换电 蔚来正迎来新转机
马斯克AI初创公司xAI寻求融资10亿美元 已完成近1.35亿美元
微软推出必应深度搜索功能 可为复杂搜索查询提供更多相关答案
马斯克:2.5万美元电动汽车将先在得州工厂生产 再在墨西哥工厂生产
更多
- 机构称Q3全球NAND闪存销售额92亿美元 预计Q4环比增长超过20%
- OpenAI联合创始人兼CEO阿尔特曼被《时代》周刊评为年度CEO
- 三星电子晶圆代工业务与台积电市场份额差距在三季度有扩大
- 外媒:苹果副总裁史蒂夫・霍特林将退休
- 外媒称特斯拉上海超级工厂37秒下线一辆整车 远快于得克萨斯超级工厂
- 消息称AMD Instinct MI300系列出货量预计将达到30-40万颗
- 消息称苹果明年年初将推出两款iPad Air两款iPad Pro
- 分析师:苹果计划在2024年3月左右推出搭载M3芯片的MacBook Air
- 消息称iPhone SE 4将采用iPhone 14同款电池 容量较上一代增加1200mAh
- 软银集团旗下电信子公司将斥资5亿美元收购Cubic Telecom 51%股份