阿里联手中科大、浙大、华科大等高校研发4项AI安全技术 获国际会议收录
【TechWeb】2月23日消息,TechWeb获悉,阿里安全图灵实验室围绕行业痛点、难点技术问题,涉及文本变异对抗、图像、视频内容风控以及AI小样本研究的4个团队,分别与中国科学技术大学、浙江大学、华中科技大学等知名高校研究人员合作,研发包括“内容安全、文本反垃圾、AI模型鲁棒性、营商环境治理”4项新一代安全架构核心AI安全技术成果,均被国际会议ICASSP(International Conference on Acoustics, Speech and Signal Processing)2021收录。
小样本训练对抗血腥暴力视频
在实际应用场景中,AI安全技术能有效解决数据量大的头部风险,但对数据量极少或者新增的风险,现有AI模型往往难以胜任。
在2018年“扫黄打非”专项整治中,就出现了一波名为“邪典”的风险(软色情、血腥暴力),主要为一些对青少年有不良导向的视频,此类相关内容清理有害信息就多达37万余条。随着短视频火爆发展,变异极快的“儿童邪典视频”极易死灰复燃。
累积此类别的数据供原有模型训练需要一定时间,而小样本方法恰好能填补“变异-模型未更新”的真空期。阿里安全图灵实验室高级算法工程师雍秦认为,使用小样本方法,可很好地在真空期中覆盖这种新风险,维护网络清朗空间环境。
“之前发表的小样本方法大都集中于优化小样本元学习阶段,该研究主要集中研究小样本方法中的预训练问题,我们AI安全团队提出了一种简单有效的方法,使用自监督方法预训练一个更深的网络,具有很好的鲁棒性和泛化性。”雍秦说。
自监督学习的核心理念是对无标签数据的进行学习,而且学习的是无标签数据的数据结构或者特性,因此不需要标签结果,这样打造的AI模型对新鲜样本的适应能力比较强。
在医疗、生物等行业安全领域,都普遍存在“样本标注困难”“成本高”问题。雍秦坚信,小样本自监督学习能很好改善这些困境。
阿里&浙大:增强AI对抗垃圾文本变异的稳定性和识别力
李进锋等阿里安全算法专家经常会遇到发送大量垃圾文本的恶意用户,黑灰产试图通过对抗的手段规避阿里安全内容风控智能AI系统检测。
以文本内容为例,恶意用户可通过对文本中的违规内容进行变形变异,从而达到绕开模型识别检测的目的。由于文本对抗门槛和成本低,文本内容风控场景中的对抗异常激烈,对抗给智能风控体系带来了巨大挑战。
图:真实应用场景中的对抗文本(红色字体为变异词)
为应对挑战,解决对抗场景中风控模型性能衰减的问题,阿里安全图灵实验室与浙江大学提出了基于对抗关系图的文本对抗防御技术。
图:基于对抗关系图的文本对抗防御框架
与现有技术相比,阿里安全的内容风控系统建模与场景无关,只需训练一次即可应用到各个场景,基于对抗关系图,就可以解决更复杂的多跳变异问题,如微(wei)-威(wei)-崴(wai)。阿里安全团队将防御框架应用到了手机淘宝、旺旺反垃圾场景,取得了不错的应用效果。
中科大&阿里:构建AI系统“防火墙”
去年,阿里安全图灵实验室发布了一款“AI安全诊断大师”,对AI模型进行全面的安全性评估,并针对AI系统的缺陷,提出提升模型防御能力建议。
这种“AI安全防火墙”的一个关键技术就是对抗样本检测,对抗样本的重要特性之一是人眼无法区分,导致无法通过人工打标进行对抗样本的检测。
2020年,阿里安全图灵实验室提出了一种基于Transformer的对抗样本检测方法,改进了传统对抗样本检测方法只能检测特定攻击,难以泛化到其他攻击的缺陷。
此次研究解决的是对抗样本检测泛化性的问题,但针对非常小扰动和非常稀疏的对抗样本的检测,仍是目前研究的难点。为了既能识别扰动大而广的对抗样本,又能识别扰动比较小而稀疏的对抗样本,中科大和阿里的研究者提出了基于图像域和梯度域的双流对抗样本检测网络,图像域用于识别扰动大而广的对抗样本,梯度域则用于识别扰动比较小而稀疏的对抗样本。
图 .双流对抗样本检测网络
随着防御技术不断变强,攻击形态越来越多样。在真实应用场景中,阿里安全图灵实验室也发现了一些没有限制情况下的攻击形态,这类攻击很难应对。阿里安全图灵实验室高级安全专家越丰介绍,目前阿里希望能从攻防两端以及产学研集合的方式来应对这种威胁。阿里安全联合清华大学、UIUC(伊利诺伊大学厄巴纳-香槟分校)举办了CVPR2021的AML-CVworkshop,产学研结合探讨AI安全的问题。另外,三方在workshop上联合天池一起举办了2个比赛:第六期-ImageNet无限制对抗攻击和防御模型的白盒对抗攻击。
提升商品图像检索能力优化用户搜索体验
电商平台的各种模态商品数据迅速增长,如何从中快速且准确地找出用户需要的商品是一个艰巨的挑战。基于内容的文本到商品图像的跨模态检索就是缓解这个挑战的关键技术之一。
传统的跨模态检索方法建立在单层次的特征表示和单粒度的相似度度量上,难以有效地解决商品图像检索的问题。
同时,文本到商品图像的跨模态检索任务更复杂,比如单是商品图像中的一类“服饰”已经表现出巨大的差异性,服饰可以穿在模特身上,也可以单独摆放,还可折叠起来展示,服饰图像背景往往也很复杂。不止如此,商品图像包含其它很多丰富的种类,并且一幅图像内往往呈现出多种物体,琳琅满目,难辨差异。
在阿里安全图灵实验室实习的浙江大学硕士生马哲介绍,这次研究在文本-商品图像跨模态检索的场景下,提出了HSL网络和两种不同粒度的相似性度量方式,可显著提升商品图像检索的性能,并能适应复杂的商品内容检索。
阿里安全图灵实验室资深算法专家华棠强调,这种新研究不仅致力于提升用户搜索体验,也会用在平台内容治理上,谨防黑灰产利用看似合规的商品图片宣传“禁限售”类商品。
“我们希望通过新一代安全架构核心AI技术来守护网络内容安全,净化网络环境,也通过AI来保护数字资产的知识产权,优化营商环境。同时也致力于通过AI来防范黑灰产的对抗行为,尽最大努力为商家和用户打造更好的互联网平台。”华棠说。
您可能也感兴趣:
官方微博/微信
每日头条、业界资讯、热点资讯、八卦爆料,全天跟踪微博播报。各种爆料、内幕、花边、资讯一网打尽。百万互联网粉丝互动参与,TechWeb官方微博期待您的关注。

想在手机上看科技资讯和科技八卦吗?
想第一时间看独家爆料和深度报道吗?
请关注TechWeb官方微信公众帐号:
1.用手机扫左侧二维码;
2.在添加朋友里,搜索关注TechWeb。
为您推荐
新冠病毒检测试剂盒销售成果显著 华大基因2020年营收预计同比增长201.09%
中手游:2020年经调整纯利预期将录得约30%至40%增长
恒指公司:猫眼娱乐、易鑫集团等被剔除出恒生科技指数
芒果超媒:2020年净利润19.63亿元 同比增长69.79%
消息称BOSS直聘计划下半年赴美IPO 融资5亿美元
产业链人士:联发科已从台积电获得充足产能支持 将加速5G产品出货
九号公司2020年净利润7332.64万元 扭亏为盈
米聊关停不到一周宣布“复活” 也要做中国版Clubhouse?
产业链人士:台积电计划今年下半年将5nm工艺月产能提升至12万片晶圆
更多
- 产业链人士:联发科已从台积电获得充足产能支持 将加速5G产品出货
- 产业链人士:台积电计划今年下半年将5nm工艺月产能提升至12万片晶圆
- 1月份Model 3在华销量下滑至第二名 仅次于五菱宏光Mini EV
- “2035年燃油车禁令”至今 英国充电桩缺口仍高达36.5万个
- Gemini与The Giving Block等合作开启加密货币捐款通道
- 马斯克:因镍供应短缺 将把特斯拉中的三元锂电池换成铁锂电池
- 英伟达游戏业务营收已连续两个财季超过20亿美元 连创新高
- 更换发动机后 SpaceX星际飞船原型SN10完成第二次静态点火测试
- 高通被英国消费者权益维护机构起诉索赔 超过6亿美元
- 比特币著名批评家查理·芒格再批比特币:它不会成为全球交易媒介