阿里联手中科院研发“听音识人”技术提升AI安全防线 获国际顶会认可
几年前,四川大学教师在某综艺节目中展现了一个“挑战不可能”的技能,女教师在不认识辨别对象的情况下,蒙着眼与人交谈几句话,就能匹配声音和人脸,准确地从10多人中找到声音的主人。
最近,中科院和阿里安全的研究者也挑战了“不可能”,他们让AI掌握了上述女教师的这项技能。通过训练AI模型,研究表情和声音的关系。给定一段声音和仅有一张正确人脸的若干张图片,AI将为该声音找到“主人”。经验证,相较于人类67%的正确率,AI的准确率接近90%。在“1对N”的匹配实验中,AI还能对声音归属人脸的“可能性”进行排序。
这种技术是一种自适应的学习框架,用来挖掘和学习人脸与声音的潜在联系,该论文研究成果随即也被CVPR 2021接收。
现有研究表明,人脸和声音受到年龄、性别、生理结构、语言习惯等共同因素的影响,两者的联系强烈而复杂多样。该研究第一作者、中科院计算所博士研究生温佩松介绍,中科院和阿里安全的研究团队将公开数据集中两种类型的数据在共享空间中表示,从而达到跨模态匹配的目的,在学习策略上利用了数据集的局部和全局信息,提高了模型的学习效率和效果。
通俗来看,即声音可能是音频格式,人脸是图片格式,两类信息以不同的格式存储,难以比较,所以研究者将声音和人脸“翻译”成了同一种格式的信息,让AI模型可以对两种信息之间的关联自行学习。AI学会了两种信息的关联性之后,就能帮声音找到人脸,或者帮人脸找到声音。因此,AI的这项技能不仅可以“听音识人”,还能“见人知声”。
温佩松介绍,该研究进行了三类实验,第一种,给定一段声音和仅含有一张正确人脸的若干张人脸图片,AI匹配声音和人脸的正确率最高可达87.2%;第二种,给定一段声音和一张人脸,询问AI这是否属于同一个人,准确率最高可达87.2%;第三种,给定一段声音和含有若干张正确人脸的图片,要求AI把所有人脸排序,使得正确的人脸尽可能靠前,AI也能准确完成任务。该实验在公开测试集上一共测试了20076张人脸和21850段音频,AI的表现都令人惊喜。
图说:AI模型通过比较声音和人脸图片在共享空间的距离,推断出相似度,按相似度将候选人脸排序。
在相同的任务上,如果待鉴别对象不限制性别,人类判断的准确率达81.3%,在限制性别的情况下,准确率仅为57.1%,性别因素对AI的影响却非常小,准确率依然如上述结果,高于人类。
据阿里安全图灵实验室资深算法专家华棠介绍,该技术后续将在内容安全和账户安全领域探索应用,对抗伪造类视频攻击,保护用户财产和信息安全。“有些人利用伪造视频试图骗过认证系统,AI的这项技能将进一步验证声音与相应真人是否匹配,防范欺诈,守护安全。”华棠说,这也是让AI在提升安全水位上有更多用武之地。
您可能也感兴趣:
官方微博/微信

每日头条、业界资讯、热点资讯、八卦爆料,全天跟踪微博播报。各种爆料、内幕、花边、资讯一网打尽。百万互联网粉丝互动参与,TechWeb官方微博期待您的关注。

想在手机上看科技资讯和科技八卦吗?
想第一时间看独家爆料和深度报道吗?
请关注TechWeb官方微信公众帐号:
1.用手机扫左侧二维码;
2.在添加朋友里,搜索关注TechWeb。
为您推荐
去哪儿2023春节报告:出境机票同比增长6.7倍
2023春节档总票房破60亿 《满江红》领跑
马斯克预计特斯拉皮卡Cybertruck 2024年量产 晚于此前预期
交易量被指夸大6至10倍 满帮回应做空报告:与事实不符
特斯拉降价带动需求大增 马斯克:1月订单量超产量两倍
特斯拉第四季度营收243.18亿美元 汽车交付405278辆同比增长31%
理想L9车主爆料高速NOA辅助驾驶失效致车辆追尾 李想回应
法拉第未来FF 91正进行最后调试工作 未来将重点聚焦国内市场
亿纬锂能拟新建、扩产多个动力电池生产基地
更多
- 苹果首款AR/MR头显有望配备4K OLED屏幕 15套摄像头模组
- 玉晶光电将为苹果AR/VR头显供应镜头模块 最早下月开始出货
- 机构称三星电子去年仍是全球营收最高半导体供应商 但同比有下滑
- 机构预计去年全球半导体营收超过6000亿美元 但同比仅增长1.1%
- 韩媒:LG新能源计划在3年内开发出锂硫电池
- 推特经理:自马斯克接管以来 已有500多家广告商逃离推特
- 业内人士:台积电5/4nm工艺产能利用率在Q2可能降至70%以下
- 消息称Shein正洽谈融资至多30亿美元 公司估值缩水36%
- 特斯拉已成全球第9大最有价值品牌 TikTok/抖音紧随其后
- 亚马逊启动有史以来规模最大一轮裁员 预计波及全球1.8万名员工